赵昀
- 作品数:6 被引量:12H指数:2
- 供职机构:南京理工大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术航空宇航科学技术更多>>
- 分阶Dyna强化学习算法
- 2009年
- 针对现有Dyna强化学习体系结构下,"规划"和"学习"在计算资源分配上的不合理问题,提出了一种分阶Dyna体系结构,随着经验知识的不断积累,将学习过程划分为探索阶段、变比重学习阶段和优化阶段,分别进行"规划"和"学习"的协调控制,大大减少了计算资源的浪费。结合传统的Q-学习算法,设计了分阶Dyna-Q强化学习算法,以适应动态不确定环境下的任务。在一个标准强化学习问题中,验证了所设计的分阶Dyna强化学习算法比基本Dyna强化学习算法具有更好的学习性能。
- 赵昀陈庆伟胡维礼
- 基于MAS的多无人机系统集散式控制体系结构研究被引量:5
- 2009年
- 多无人机协同作战是未来空战的主要模式。将多无人机协同作战问题看作复杂的动态协作问题,利用多智能体技术建立多无人机系统的集散式控制体系结构。探讨了在所提出的控制体系结构下,系统能够快速应对各种突发战况,进行组织结构的重构,展现了较好的可重构性。研究表明,基于多智能体技术的集散式控制体系结构适用于多无人机协同作战过程。
- 赵昀李胜陈庆伟胡维礼
- 关键词:多无人机协同作战多智能体
- 一类多目标强化学习方法的研究
- 多目标学习控制方法具有很强的工程应用背景。近年来,基于多目标强化学习求解多目标学习控制问题已成为国际学术界关注的一个研究热点。本文研究了强化学习的共性技术、多目标强化学习的系统结构及算法,主要内容如下: (1)提出了一...
- 赵昀
- 关键词:系统结构
- 基于状态敏感度的移动机器人路径规划
- 2012年
- 针对未知环境下的移动机器人系统,研究了使机器人能同时躲避静态和动态障碍物、且快速抵达目标的路径规划问题。首先通过定义一种新的状态敏感度测度,度量状态与目标之间的关联程度,指导机器人对环境的自主探索方向和力度,进而利用强化学习获得机器人的最优行动策略。通过引入状态敏感度测度,提高算法的学习速度、学习性能。最后通过对环境未知、且具有动态障碍物的路径规划任务的实例仿真,验证了所提方法的有效性。
- 赵昀陈庆伟胡维礼
- 关键词:移动机器人路径规划
- 有关强化学习的若干问题研究
- 强化学习是机器学习领域中的一个重要研究方向。强化学习系统通过对环境反复试探的方式,学习环境状态到可执行动作的最优反应式映射策略,以获取最大回报。相比于其它学习技术,强化学习的显著优势在于它对先验知识的完备程度几乎没有要求...
- 赵昀
- 关键词:Q学习算法函数逼近
- 文献传递
- 一种基于信息熵的强化学习算法被引量:5
- 2010年
- 针对强化学习中探索和利用之间的平衡控制问题,提出了一种基于信息熵的强化学习算法。该算法利用信息熵的概念,定义了一种新的状态重要性测度,度量了状态与目标之间的关联程度,据此设计了一种探索机制,用于自适应调节学习过程中探索和利用之间的平衡;通过设置可变测度阈值的方法,对状态空间进行自主删减,最终生成合适的、规模较小的状态空间,从而大大节约了计算资源,提高了学习速度。仿真结果表明,所提算法具有较好的学习性能。
- 赵昀陈庆伟胡维礼
- 关键词:信息熵