江苏省自然科学基金(BK2012303)
- 作品数:4 被引量:7H指数:1
- 相关作者:俞扬钱煜马健周志华更多>>
- 相关机构:南京大学计算机软件新技术国家重点实验室更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种结合演示数据和演化优化的强化学习方法
- 2014年
- 强化学习研究智能体如何从与环境的交互中学习最优的策略,以最大化长期奖赏。由于环境反馈的滞后性,强化学习问题面临巨大的决策空间,进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索,在搜索算法方面,研究结果表明基于演化优化的直接策略搜索方法能够获得优于传统方法的性能;在引入外部信息方面,通过加入用户提供的演示,可以有效帮助强化学习提高性能。然而,这两种有效方法的结合却鲜有研究。对用户演示与演化优化的结合进行研究,提出iNEAT+Q算法,尝试将演示数据通过预训练神经网络和引导演化优化的适应值函数的方式与演化强化学习方法结合。初步实验表明,iNEAT+Q较不使用演示数据的演化强化学习方法NEAT+Q有明显的性能改善。
- 宋拴俞扬
- 关键词:演化算法神经网络
- 一种基于全局位置估计误差的路标探索策略被引量:1
- 2014年
- 自主移动机器人在未知环境中探索和估计路标的方法主要基于SLAM技术。提出一种以全局定位误差最小化为指导的基于SLAM的探索策略。以全局定位误差的估计为准则,采用Monte Carlo采样来贪心地优化每一步的行走路径。考虑到SLAM估计的惯性,文中对较大转弯角度进行惩罚,使机器人更倾向于平滑的行走轨迹,从而进一步提高路标位置的估计精度。文中还将全局定位信息引入SLAM的机器人自身位置估计中,由于全局定位信息历史运动轨迹,该方法能够有效地校正当机器人移动变化过大时SLAM估计的误差。实验显示了文中方法的有效性。
- 马健俞扬
- 关键词:SLAM卡尔曼滤波路径规划
- 一种基于肤色和深度的第一人称人手识别方法被引量:5
- 2014年
- 手是人类与外界交互的主要工具,因此在可穿戴增强现实系统中,引入手势操作将会为人机交互过程提供非常自然的操作体验。以往的手势识别,一方面并不是考虑应用在可穿戴增强现实的场景中,有着不同的视角差,另一方面往往只基于二维信息,而忽视三维深度信息。在传统的肤色模型基础上,融合了三维深度信息,构建了满足实时性要求的手势操作系统。
- 郭训力俞扬
- 一种基于自生成样本学习的奖赏塑形方法被引量:1
- 2013年
- 强化学习通过从以往的决策反馈中学习,使Agent做出正确的短期决策,以最大化其获得的累积奖赏值.以往研究发现,奖赏塑形方法通过提供简单、易学的奖赏替代函数(即奖赏塑性函数)来替换真实的环境奖赏,能够有效地提高强化学习性能.然而奖赏塑形函数通常是在领域知识或者最优策略示例的基础上建立的,均需要专家参与,代价高昂.研究是否可以在强化学习过程中自动地学习有效的奖赏塑形函数.通常,强化学习算法在学习过程中会采集大量样本.这些样本虽然有很多是失败的尝试,但对构造奖赏塑形函数可能提供有用信息.提出了针对奖赏塑形的新型最优策略不变条件,并在此基础上提出了RFPotential方法,从自生成样本中学习奖赏塑形.在多个强化学习算法和问题上进行了实验,其结果表明,该方法可以加速强化学习过程.
- 钱煜俞扬周志华