搜索到2109篇“ Q-学习“的相关文章
- 一种基于数据驱动Q-学习的工业过程容错控制方法
- 本发明公布了一种基于数据驱动Q‑学习的工业过程容错控制方法,包括以下步骤:(1)在原系统的状态空间模型基础上建立包含跟踪误差和状态增量的具有执行器故障的等价状态空间模型,并根据新的模型提出性能指标函数;(2)提出值函数以...
- 王立敏李雪玉李春
- 一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法
- 本发明公开了一种基于高斯过程预测的非零和多玩家博弈的Q‑学习方法,属于机器学习和自动控制技术领域,具体涉及一种结合高斯过程预测和脱策略交错Q‑学习方法,具体步骤如下:步骤一,建立一个包含随机扰动的多玩家非零和博弈问题模型...
- 李金娜张亦升郎宪明李存磊李岚宇
- 一种基于Q-学习的雷达抗干扰方法及系统
- 本发明公开了一种基于Q‑学习的雷达抗干扰方法及系统,方法包括:将雷达接收到的干扰信号作为场景状态集合;将不同自适应干扰抑制处理算法作为动作集合;将状态动作价值函数作为评价函数,建立强化学习模型,采用Q‑学习算法进行模型训...
- 王峰汪浩
- 一种基于深度期望Q-学习的电网能量管理方法及系统
- 本发明公开基于双‑深度期望Q‑学习网络算法的电网能量管理方法及系统,首先基于贝叶斯神经网络对预测点光伏出力不确定性建模并获得光伏出力的概率分布;将光伏出力的概率分布输入基于双‑深度期望Q‑学习网络算法的电网能量管理模型中...
- 陈振韩晓言丁理杰魏巍
- 含虚拟惯量的虚拟电厂Nash-Q强化学习调度策略
- 2024年
- 目前,对于高效利用广泛接入电网的分布式电源问题的研究存在不足。该文通过结合博弈论与强化学习,提出一种含虚拟惯量的虚拟电厂Nash-Q强化学习调度策略,解决具有高随机性和不确定性的分布式电源协调优化调度的问题。首先,建立一个综合考虑碳排放、经济性、出力和惯量约束的虚拟电厂混合目标调度模型,并进一步构造出纳什均衡模型;然后,针对燃气轮机组出力、风光机组出力、储能电池组出力和碳交易量定义多智能体,并构造多智能体的状态空间、动作空间集合和奖励函数,通过马尔可夫决策不断学习更新价值函数;最后,在线推演输出多时间尺度最优调度策略。结果表明:Nash-Q强化学习调度策略相比于传统调度方法,提高了9.7%的收益、减少了13.6%的碳排放量,并利用储能电池组的虚拟惯量有效提高了虚拟电厂的惯量支撑能力,实现了虚拟电厂的低碳高效安全经济运行。
- 刘东奇钱奕衡张曦
- 关键词:分布式电源博弈论
- 连续线性系统Q-学习算法研究
- 王离寒
- 基于非策略Q-学习的工业过程输出反馈容错跟踪控制
- 贾林竹
- 一种结合Q增强学习的实时模糊能源管理方法
- 本发明公开一种结合Q增强学习的实时模糊能源管理方法,属于自动化技术领域。本发明提出的Q学习控制器通过车辆运行需求功率和超级电容荷电状态来采取行动,即无需提前知道驾驶模式。为了延长燃料电池的寿命并降低其能量消耗,通过遗传算...
- 陶吉利胡业强白杨马龙华
- 一种基于Q强化学习的电网运行断面动态生成方法
- 本发明涉及一种基于Q强化学习的电网运行断面动态生成方法,本发明基于电网运行历史数据挖掘分析,训练得到Q强化学习智能体,本发明包括以下步骤:S1)智能体构建,确定电网运行特征指标、选定基础生成方法库,进而按照Q强化学习要求...
- 张蔷吴云亮邓韦斯李鹏苏寅生
- 一种改进Q-学习蚁群算法的多无人机四维航迹规划方法
- 本发明公开一种改进Q‑学习蚁群算法的多无人机四维航迹规划方法,涉及多无人机四维航迹规划技术领域。所述方法包括:首先,构建多个蚁群并初始化,每个蚁群包含若干个搜索同一个无人机四维航迹的蚂蚁;然后,设计基于改进Q‑学习的四维...
- 肖明明于楠董斌王硕李恒辉
相关作者
- 刘亮

- 作品数:20被引量:19H指数:3
- 供职机构:安徽大学
- 研究主题:Q-学习 ROBOCUP 多智能体 多AGENT系统 神经网络
- 刘伟兵

- 作品数:35被引量:320H指数:10
- 供职机构:武汉大学政治与公共管理学院社会保障研究中心
- 研究主题:进化博弈 博弈论 Q-学习 多代理人 神经网络
- 顾国昌

- 作品数:146被引量:892H指数:16
- 供职机构:哈尔滨工程大学计算机科学与技术学院
- 研究主题:分层强化学习 智能机器人 多智能体系统 路径规划 多机器人
- 魏赟

- 作品数:45被引量:148H指数:7
- 供职机构:上海理工大学光电信息与计算机工程学院
- 研究主题:蚁群算法 现场总线 污水厂 注意力 微观交通仿真
- 承向军

- 作品数:30被引量:139H指数:7
- 供职机构:北京交通大学交通运输学院
- 研究主题:交通信号控制 控制方法 交通信号 多智能体系统 遗传算法