删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于经验指导的深度确定性多行动者-评论家算法

本站小编 Free考研考试/2022-01-01

陈红名1,刘全1,2,3,4,闫岩1,何斌1,姜玉斌1,张琳琳1
1(苏州大学计算机科学与技术学院 江苏苏州 215006);2(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);3(符号计算与知识工程教育部重点实验室(吉林大学) 长春 130012);4(软件新技术与产业化协同创新中心 南京 210000) (20174227007@stu.suda.edu.cn)
出版日期: 2019-08-01


基金资助:国家自然科学基金项目(61772355,61702055,61472262,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);苏州市应用基础研究计划工业部分项目(SYG201422)

An Experience-Guided Deep Deterministic Actor-Critic Algorithm with Multi-Actor

Chen Hongming1, Liu Quan1,2,3,4, Yan Yan1, He Bin1, Jiang Yubin1, Zhang Linlin1
1(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006);2(Provincial Key Laboratory for Computer Information Processing Technology (Soochow University), Suzhou, Jiangsu 215006);3(Key Laboratory of Symbolic Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun, 130012);4(Collaborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000)
Online: 2019-08-01







摘要/Abstract


摘要: 连续控制问题一直是强化学习研究的一个重要方向.近些年深度学习的发展以及确定性策略梯度(deterministic policy gradients, DPG)算法的提出,为解决连续控制问题提供了很多好的思路.这类方法大多在动作空间中加入外部噪声源进行探索,但是它们在一些连续控制任务中的表现并不是很好.为更好地解决探索问题,提出了一种基于经验指导的深度确定性多行动者-评论家算法(experience-guided deep deterministic actor-critic with multi-actor, EGDDAC-MA),该算法不需要外部探索噪声,而是从自身优秀经验中学习得到一个指导网络,对动作选择和值函数的更新进行指导.此外,为了缓解网络学习的波动性,算法使用多行动者-评论家模型,模型中的多个行动者网络之间互不干扰,各自执行情节的不同阶段.实验表明:相比于DDPG,TRPO和PPO算法,EGDDAC-MA算法在GYM仿真平台中的大多数连续任务中有更好的表现.






[1]卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[2]范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139.
[3]亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238.
[4]刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687.
[5]王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698.
[6]吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589.
[7]张文韬,汪璐,程耀东. 基于强化学习的Lustre文件系统的性能调优[J]. 计算机研究与发展, 2019, 56(7): 1578-1586.
[8]章晓芳,周倩,梁斌,徐进. 一种自适应的多臂赌博机算法[J]. 计算机研究与发展, 2019, 56(3): 643-654.
[9]张凯峰,俞扬. 基于逆强化学习的示教学习方法综述[J]. 计算机研究与发展, 2019, 56(2): 254-261.
[10]白辰甲,刘鹏,赵巍,唐降龙. 基于TD-error自适应校正的深度Q学习主动采样方法[J]. 计算机研究与发展, 2019, 56(2): 262-280.
[11]朱斐,吴文,刘全,伏玉琛. 一种最大置信上界经验采样的深度Q网络方法[J]. 计算机研究与发展, 2018, 55(8): 1694-1705.
[12]王倩,聂秀山,尹义龙. 密集异构网络中基于强化学习的流量卸载算法[J]. 计算机研究与发展, 2018, 55(8): 1706-1716.
[13]胡晴,吕世超,石志强,孙利民,肖亮. 基于专家系统的高级持续性威胁云端检测博弈[J]. 计算机研究与发展, 2017, 54(10): 2344-2355.
[14]刘智斌,曾晓勤,刘惠义,储荣. 基于BP神经网络的双层启发式强化学习方法[J]. 计算机研究与发展, 2015, 52(3): 579-587.
[15]钟珊, 刘全, 傅启明, 章宗长, 朱斐, 龚声蓉. 一种近似模型表示的启发式Dyna优化算法[J]. 计算机研究与发展, 2015, 52(12): 2764-2775.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3989
相关话题/计算机 网络 经验 优化 控制