1(苏州大学计算机科学与技术学院 江苏苏州 215006);2(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);3(符号计算与知识工程教育部重点实验室(吉林大学) 长春 130012);4(常熟理工学院计算机科学与工程学院 江苏常熟 215500) (zhufei@suda.edu.cn)
出版日期:
2018-08-01基金资助:
国家自然科学基金项目(61303108,61373094,61772355);江苏省高校自然科学研究项目重大项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金项目(201606920013) This work was supported by the National Natural Science Foundation of China (61303108, 61373094, 61772355), Jiangsu College Natural Science Research Key Program (17KJA520004), the Program of the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education (Jilin University) (93K172014K04), Suzhou Industrial Application of Basic Research Program (SYG201422), the Program of the Provincial Key Laboratory for Computer Information Processing Technology (Soochow University) (KJS1524), and China Scholarship Council Project (201606920013).A Deep Q-Network Method Based on Upper Confidence Bound Experience Sampling
Zhu Fei1,2,3, Wu Wen1, Liu Quan1,3,Fu Yuchen1,41(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006);2(Provincial Key Laboratory for Computer Information Processing Technology (Soochow University), Suzhou, Jiangsu 215006);3(Key Laboratory of Symbolic Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012);4(School of Computer Science and Engineering, Changshu Institute of Technology, Changshu, Jiangsu 215500)
Online:
2018-08-01摘要/Abstract
摘要: 由深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)结合形成的深度强化学习(deep reinforcement learning, DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.
参考文献
相关文章 15
[1] | 卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554. |
[2] | 范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139. |
[3] | 亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238. |
[4] | 刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687. |
[5] | 王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698. |
[6] | 吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589. |
[7] | 陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720. |
[8] | 张文韬,汪璐,程耀东. 基于强化学习的Lustre文件系统的性能调优[J]. 计算机研究与发展, 2019, 56(7): 1578-1586. |
[9] | 章晓芳,周倩,梁斌,徐进. 一种自适应的多臂赌博机算法[J]. 计算机研究与发展, 2019, 56(3): 643-654. |
[10] | 张凯峰,俞扬. 基于逆强化学习的示教学习方法综述[J]. 计算机研究与发展, 2019, 56(2): 254-261. |
[11] | 白辰甲,刘鹏,赵巍,唐降龙. 基于TD-error自适应校正的深度Q学习主动采样方法[J]. 计算机研究与发展, 2019, 56(2): 262-280. |
[12] | 王倩,聂秀山,尹义龙. 密集异构网络中基于强化学习的流量卸载算法[J]. 计算机研究与发展, 2018, 55(8): 1706-1716. |
[13] | 胡晴,吕世超,石志强,孙利民,肖亮. 基于专家系统的高级持续性威胁云端检测博弈[J]. 计算机研究与发展, 2017, 54(10): 2344-2355. |
[14] | 刘智斌,曾晓勤,刘惠义,储荣. 基于BP神经网络的双层启发式强化学习方法[J]. 计算机研究与发展, 2015, 52(3): 579-587. |
[15] | 钟珊, 刘全, 傅启明, 章宗长, 朱斐, 龚声蓉. 一种近似模型表示的启发式Dyna优化算法[J]. 计算机研究与发展, 2015, 52(12): 2764-2775. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3748