公共文化服务平台

2025年1月24日星期五

|

欢迎来到青海省图书馆•公共文化服务平台

登录 | 注册 | 进入后台

[APP下载]

[APP下载]

扫一扫,既下载

全民阅读
职业技能
专家智库
参考咨询

您的位置： 专家智库 > >

深圳市自然科学基金(JCYJ20120617134831736): 作品数：2 被引量：3H指数：1; 相关作者：郑红燕陈鑫仵博冯延蓬更多>>; 相关机构：中南大学深圳职业技术学院更多>>; 发文基金：深圳市自然科学基金国家自然科学基金国家教育部博士点基金更多>>; 相关领域：自动化与计算机技术更多>>

相关作品
相关人物
相关机构
相关资助
相关领域

文献类型

2篇中文期刊文章

领域

2篇自动化与计算...

主题

2篇马尔可夫决策...
1篇信念
1篇信息处理
1篇维数灾
1篇马尔可夫
1篇矩阵
1篇矩阵分解
1篇降维
1篇降维算法
1篇非负矩阵
1篇非负矩阵分解
1篇贝叶斯
1篇部分可观察马...

机构

2篇深圳职业技术...
2篇中南大学

作者

2篇冯延蓬
2篇仵博
2篇陈鑫
2篇郑红燕

传媒

1篇电子与信息学...
1篇电子学报

年份

1篇2014
1篇2013

共 2 条记录，以下是 1-2

全选清除导出

排序方式：

一种基于模型的可分解贝叶斯在线强化学习被引量：2: 2014年; 针对贝叶斯强化学习中参数个数巨大,收敛速度慢,无法实现在线学习的问题,提出一种基于模型的可分解贝叶斯强化学习方法.首先,将学习参数进行可分解表示,降低学习参数的个数;然后,根据先验知识和观察数据采用贝叶斯方法来学习,最优化探索和利用二者之间的平衡关系;最后,采用基于点的贝叶斯强化学习方法实现学习过程的快速收敛,从而达到在线学习的目的.仿真结果表明该算法能够满足实时系统性能的要求.; 仵博郑红燕冯延蓬陈鑫; 关键词：马尔可夫决策过程

基于非负矩阵分解更新规则的部分可观察马尔可夫决策过程信念状态空间降维算法被引量：1: 2013年; 针对求解部分可观察马尔可夫决策过程(POMDP)规划问题时遭遇的"维数诅咒",该文提出了一种基于非负矩阵分解(NMF)更新规则的POMDP信念状态空间降维算法,分两步实现低误差高维降维。第1步,利用POMDP的结构特性,将状态、观察和动作进行可分解表示,然后利用动态贝叶斯网络的条件独立对其转移函数进行分解压缩,并去除概率为零的取值,降低信念状态空间的稀疏性。第2步,采用信念状态空间值直接降维方法,使降维后求出的近似最优策略与原最优策略保持一致,使用NMF更新规则来更新信念状态空间,避免Krylov迭代,加快降维速度。该算法不仅保证降维前后值函数不发生改变,又保留了其分段线性凸特性。实验结果表明,该算法具有较低误差率和较高收敛性。; 仵博陈鑫郑红燕冯延蓬; 关键词：信息处理部分可观察马尔可夫决策过程非负矩阵分解维数灾

全选清除导出

共1页<1>

执行隐藏清空

用户登录

用户反馈

标题：

*标题长度不超过50

邮箱：

*

反馈意见：

反馈意见字数长度不超过255

验证码：

看不清楚？点击换一张