程晓北
- 作品数:5 被引量:12H指数:2
- 供职机构:哈尔滨工程大学计算机科学与技术学院更多>>
- 发文基金:中国博士后科学基金中央高校基本科研业务费专项资金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种多智能体分层强化学习方法
- 现有的多智能体强化学习方法不能很好地解决维数灾难问题。本文将融合Option和MAXQ的分层强化学习方法并推广到多智能体领域,形成一种新的多智能体分层强化学习方法,以多出租车问题为任务背景进行了仿真实验,结果表明该方法行...
- 沈晶程晓北刘海波张国印顾国昌
- 关键词:人工智能多智能体维数灾难
- 文献传递
- 分层强化学习研究进展被引量:1
- 2008年
- 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。但强化学习方法一直被维数灾难所困扰。近年来,分层强化学习方法在解决维数灾问题中取得了显著成果,并逐渐开始向多智能体系统推广,论文归纳分析这一领域目前的研究进展,并对迫切需要解决的一些问题和进一步的发展趋势作出探讨和展望。
- 程晓北沈晶刘海波顾国昌张国印
- 关键词:分层强化学习多智能体系统维数灾难
- 多智能体分层强化学习研究进展
- 2007年
- 强化学习(RL)通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支。多智能体强化学习(MARL)和分层强化学习(HRL)是该领域近年的两个研究热点,二者融合形成的多智能体分层强化学习(MAHRL)则是当前一个新的研究方向。MARL、HRL和MAHRL虽已取得了研究成果,但也要指出MAHRL研究中尚未解决的问题及其研究思路。
- 程晓北顾国昌
- 关键词:多智能体强化学习分层强化学习
- 基于半马尔可夫对策的多机器人分层强化学习被引量:7
- 2010年
- 在多智能体分层强化学习研究成果的基础上,考虑多机器人系统经常面临的通信困难问题(如水下环境),提出一种基于半马尔可夫对策的多机器人分层强化学习方法,通过引入对策论方法解决通信困难情况下多机器人学习问题。仿真实验结果表明了该方法的有效性。
- 沈晶刘海波张汝波吴艳霞程晓北
- 关键词:多机器人分层强化学习
- 动态环境中的分层强化学习被引量:5
- 2008年
- 现有的强化学习方法都不能很好地处理动态环境中的学习问题,当环境变化时需要重新学习最优策略,若环境变化的时间间隔小于策略收敛时间,学习算法则不能收敛.本文在Option分层强化学习方法的基础上提出一种适应动态环境的分层强化学习方法,该方法利用学习的分层特性,仅关注分层任务子目标状态及当前Option内部环境状态的变化,将策略更新过程限制在规模较小的局部空间或维数较低的高层空间上,从而加快学习速度.以二维动态栅格空间内两点间最短路径规划为背景进行了仿真实验,实验结果表明,该方法策略学习速度明显高于以往的方法,且学习算法收敛性对环境变化频率的依赖性有所降低.
- 沈晶程晓北刘海波顾国昌张国印
- 关键词:分层强化学习动态环境OPTION