深圳市自然科学基金(JCYJ20120617134831736)
- 作品数:2 被引量:3H指数:1
- 相关作者:郑红燕陈鑫仵博冯延蓬更多>>
- 相关机构:中南大学深圳职业技术学院更多>>
- 发文基金:深圳市自然科学基金国家自然科学基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于模型的可分解贝叶斯在线强化学习被引量:2
- 2014年
- 针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的.仿真结果表明该算法能够满足实时系统性能的要求.
- 仵博郑红燕冯延蓬陈鑫
- 关键词:马尔可夫决策过程
- 基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法被引量:1
- 2013年
- 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。
- 仵博陈鑫郑红燕冯延蓬
- 关键词:信息处理部分可观察马尔可夫决策过程非负矩阵分解维数灾