您的位置: 专家智库 > >

袁继彬

作品数:4 被引量:13H指数:2
供职机构:合肥工业大学计算机与信息学院更多>>
发文基金:国家自然科学基金安徽省自然科学基金更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 2篇会议论文
  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...
  • 2篇理学

主题

  • 4篇神经元动态规...
  • 4篇性能势
  • 2篇马尔可夫
  • 2篇决策过程
  • 1篇优化控制
  • 1篇神经网
  • 1篇神经网络
  • 1篇马尔可夫决策...
  • 1篇SMDP
  • 1篇MARKOV...
  • 1篇MDP

机构

  • 4篇合肥工业大学

作者

  • 4篇袁继彬
  • 3篇唐昊
  • 2篇周雷
  • 1篇陆阳
  • 1篇韩江洪

传媒

  • 1篇控制理论与应...
  • 1篇2005中国...

年份

  • 1篇2006
  • 2篇2005
  • 1篇2004
4 条 记 录,以下是 1-4
排序方式:
马尔可夫决策过程基于TD(0)学习和性能势的NDP优化
在Markov性能势基础上讨论了一种基于强化学习的马尔可夫决策过程(MDP)优化方法。本文通过MDP的一个一致化链和Markov性能势的神经元网络逼近,重点研究了Critic模式下的一种神经元动态规划(NDP)优化方法,...
袁继彬唐昊韩江洪
关键词:马尔可夫决策过程性能势神经元动态规划
文献传递
平均和折扣准则MDP基于TD(0)学习的统一NDP方法被引量:12
2006年
为适应实际大规模M arkov系统的需要,讨论M arkov决策过程(MDP)基于仿真的学习优化问题.根据定义式,建立性能势在平均和折扣性能准则下统一的即时差分公式,并利用一个神经元网络来表示性能势的估计值,导出参数TD(0)学习公式和算法,进行逼近策略评估;然后,根据性能势的逼近值,通过逼近策略迭代来实现两种准则下统一的神经元动态规划(neuro-dynam ic programm ing,NDP)优化方法.研究结果适用于半M arkov决策过程,并通过一个数值例子,说明了文中的神经元策略迭代算法对两种准则都适用,验证了平均问题是折扣问题当折扣因子趋近于零时的极限情况.
唐昊周雷袁继彬
关键词:MARKOV决策过程性能势神经元动态规划
大规模Markov系统基于性能势学习的NDP优化方法研究
论文重点研究了MDP基于性能势强化学习的一类优化方法.针对传统的理论优化方法如策略迭代、数值迭代不能适用于大规模系统的问题,我们采用仿真方法.在样本轨道仿真的基础上,利用神经网络进行强化学习仿真逼近系统的性能势,进而对系...
袁继彬
关键词:决策过程神经元动态规划神经网络优化控制
文献传递
SMDP基于TD(λ)学习的统一神经元动态规划优化方法
本文讨论了半马尔可夫决策过程(SMDP)基于参数学习的性能优化问题.首先通过SMDP的一致链转抉及其性能势的神经元网络逼近,建立了折扣和平均准则下SMDP统一的TD(λ)参数学习公式;然后给出一种基于TD(λ)的神经元动...
唐昊周雷陆阳袁继彬
关键词:神经元动态规划决策过程性能势
文献传递
共1页<1>
聚类工具0