方长胜
- 作品数:3 被引量:3H指数:1
- 供职机构:合肥工业大学计算机与信息学院计算机科学与技术系更多>>
- 发文基金:国家自然科学基金安徽省自然科学基金安徽省高校省级自然科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 部分可观察Markov决策过程中基于内部状态的强化学习研究
- 强化学习是机器学习的一个重要分支,它模拟动物学习过程,通过试探的方法修正从状态到动作的映射策略,最终学会在各种环境状态下采取最好的反应行为,从而提高智能系统的自适应性和鲁棒性。
尽管强化学习技术已有很多研究成果...
- 方长胜
- 关键词:部分可观察马尔可夫决策过程多AGENT系统
- 文献传递
- 基于内部结构MPoMDP模型的策略梯度学习算法被引量:1
- 2009年
- 为了提高MPOMDP模型的知识表示能力和推理效率,提出一种基于Agent内部结构的MPOMDP模型。该模型能表示Agent的内部结构及其时间演化,并通过将系统联合概率分布表示成每个Agent内部变量集的局部因式形式,以提高模型的推理效率。将GPI-POMDP算法扩展到基于内部结构的MPOMDP模型中,给出基于内部状态的多Agent策略梯度算法(MIS-GPOMDP),来求解基于内部结构的MPOMDP。实验结果表明MIS-GPOMDP算法具有较高的推理效率,且算法是收敛的。
- 张润梅王浩张佑生姚宏亮方长胜
- 关键词:马尔可夫决策过程
- POMDP中基于内部状态的多agent强化学习
- 基于部分可观察Markov决策过程(POMDP)的强化学习模型能有效地对动态决策问题进行建模,但精确求解最优策略是PSPACE难题,在直接逼近最优策略的近似求解方法中策略描述的复杂性随着问题规模的增大成指数增加。本文利用...
- 方长胜王浩王池社姚宏亮
- 关键词:部分可观察马尔可夫决策过程多AGENT系统
- 文献传递