2025年2月9日
星期日
|
欢迎来到青海省图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
陈栋
作品数:
3
被引量:4
H指数:1
供职机构:
合肥工业大学计算机与信息学院
更多>>
发文基金:
国家自然科学基金
安徽省自然科学基金
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
唐昊
合肥工业大学计算机与信息学院
周雷
合肥工业大学计算机与信息学院
吴玉华
合肥工业大学计算机与信息学院
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
期刊文章
1篇
学位论文
1篇
会议论文
领域
3篇
自动化与计算...
主题
3篇
神经元动态规...
3篇
性能势
2篇
半MARKO...
2篇
SMDP
1篇
网络
1篇
马尔可夫
1篇
马尔可夫决策...
1篇
MDP
1篇
ACTOR
机构
3篇
合肥工业大学
作者
3篇
陈栋
2篇
周雷
2篇
唐昊
1篇
吴玉华
传媒
1篇
控制与决策
年份
1篇
2007
1篇
2006
1篇
2005
共
3
条 记 录,以下是 1-3
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
MDP基于actor-critic网络的统一NDP方法
研究马尔可大决策过程(MDP)在actor-critic模式下,基于性能势学习的神经元动态规划(NDP)方法。首先,通过MDP的一个一致链的单个样本轨道,利用一个神经元网络逼近其性能势,并根据折扣和平均准则下统一的参数T...
唐昊
陈栋
周雷
关键词:
性能势
文献传递
SMDP基于性能势的NDP优化方法及应用研究
离散事件动态系统/(DEDS/)是实际生活中广泛存在的一类人造系统,而半Markov决策过程/(SMDP/)是这类系统建模的主要方法之一。为了适应对于大状态空间离散事件动态系统优化控制的需要,论文重点研究了建立在强化学习...
陈栋
关键词:
半MARKOV决策过程
性能势
神经元动态规划
文献传递
SMDP基于Actor网络的统一NDP方法
被引量:4
2007年
研究半马尔可夫决策过程(SMDP)基于性能势学习和策略逼近的神经元动态规划(NDP)方法.通过SMDP的一致马尔可夫链的单个样本轨道,给出了折扣和平均准则下统一的性能势TD(λ)学习算法,进行逼近策略评估;利用一个神经元网络逼近结构作为行动器(Actor)表示策略,并根据性能势的学习值给出策略参数改进的两种方法.最后通过数值例子说明了有关算法的有效性.
唐昊
陈栋
周雷
吴玉华
关键词:
半MARKOV决策过程
性能势
神经元动态规划
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张