删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种最大置信上界经验采样的深度Q网络方法

本站小编 Free考研考试/2022-01-01

朱斐1,2,3,吴文1,刘全1,3,伏玉琛1,4
1(苏州大学计算机科学与技术学院 江苏苏州 215006);2(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);3(符号计算与知识工程教育部重点实验室(吉林大学) 长春 130012);4(常熟理工学院计算机科学与工程学院 江苏常熟 215500) (zhufei@suda.edu.cn)
出版日期: 2018-08-01


基金资助:国家自然科学基金项目(61303108,61373094,61772355);江苏省高校自然科学研究项目重大项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)资助项目(93K172014K04);苏州市应用基础研究计划工业部分(SYG201422);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金项目(201606920013) This work was supported by the National Natural Science Foundation of China (61303108, 61373094, 61772355), Jiangsu College Natural Science Research Key Program (17KJA520004), the Program of the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education (Jilin University) (93K172014K04), Suzhou Industrial Application of Basic Research Program (SYG201422), the Program of the Provincial Key Laboratory for Computer Information Processing Technology (Soochow University) (KJS1524), and China Scholarship Council Project (201606920013).

A Deep Q-Network Method Based on Upper Confidence Bound Experience Sampling

Zhu Fei1,2,3, Wu Wen1, Liu Quan1,3,Fu Yuchen1,4
1(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006);2(Provincial Key Laboratory for Computer Information Processing Technology (Soochow University), Suzhou, Jiangsu 215006);3(Key Laboratory of Symbolic Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012);4(School of Computer Science and Engineering, Changshu Institute of Technology, Changshu, Jiangsu 215500)
Online: 2018-08-01







摘要/Abstract


摘要: 由深度学习(deep learning, DL)和强化学习(reinforcement learning, RL)结合形成的深度强化学习(deep reinforcement learning, DRL)是目前人工智能领域的一个热点.深度强化学习在处理具有高维度输入的最优策略求解任务中取得了很大的突破.为了减少转移状态之间暂时的相关性,传统深度Q网络使用经验回放的采样机制,从缓存记忆中随机采样转移样本.然而,随机采样并不考虑缓存记忆中各个转移样本的优先级,导致网络训练过程中可能会过多地采用信息较低的样本,而忽略一些高信息量的样本,结果不但增加了训练时间,而且训练效果也不理想.针对此问题,在传统深度Q网络中引入优先级概念,提出基于最大置信上界的采样算法,通过奖赏、时间步、采样次数共同决定经验池中样本的优先级,提高未被选择的样本、更有信息价值的样本以及表现优秀的样本的被选概率,保证了所采样本的多样性,使智能体能更有效地选择动作.最后,在Atari 2600的多个游戏环境中进行仿真实验,验证了算法的有效性.






[1]卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[2]范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139.
[3]亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238.
[4]刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687.
[5]王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698.
[6]吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589.
[7]陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720.
[8]张文韬,汪璐,程耀东. 基于强化学习的Lustre文件系统的性能调优[J]. 计算机研究与发展, 2019, 56(7): 1578-1586.
[9]章晓芳,周倩,梁斌,徐进. 一种自适应的多臂赌博机算法[J]. 计算机研究与发展, 2019, 56(3): 643-654.
[10]张凯峰,俞扬. 基于逆强化学习的示教学习方法综述[J]. 计算机研究与发展, 2019, 56(2): 254-261.
[11]白辰甲,刘鹏,赵巍,唐降龙. 基于TD-error自适应校正的深度Q学习主动采样方法[J]. 计算机研究与发展, 2019, 56(2): 262-280.
[12]王倩,聂秀山,尹义龙. 密集异构网络中基于强化学习的流量卸载算法[J]. 计算机研究与发展, 2018, 55(8): 1706-1716.
[13]胡晴,吕世超,石志强,孙利民,肖亮. 基于专家系统的高级持续性威胁云端检测博弈[J]. 计算机研究与发展, 2017, 54(10): 2344-2355.
[14]刘智斌,曾晓勤,刘惠义,储荣. 基于BP神经网络的双层启发式强化学习方法[J]. 计算机研究与发展, 2015, 52(3): 579-587.
[15]钟珊, 刘全, 傅启明, 章宗长, 朱斐, 龚声蓉. 一种近似模型表示的启发式Dyna优化算法[J]. 计算机研究与发展, 2015, 52(12): 2764-2775.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3748
相关话题/计算机 网络 苏州大学 智能 计算

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 密集异构网络中基于强化学习的流量卸载算法
    王倩1,2,聂秀山1,尹义龙21(山东财经大学计算机科学与技术学院济南250014);2(山东大学齐鲁软件学院济南250101)(qianwang@sdu.edu.cn)出版日期:2018-08-01基金资助:国家自然科学基金项目(61573219,61671274);山东省重点研发计划项目(201 ...
    本站小编 Free考研考试 2022-01-01
  • 一种可度量的贝叶斯网络结构学习方法
    綦小龙1,2,高阳1,王皓1,宋蓓1,周春蕾3,张友卫31(南京大学计算机科学与技术系南京210046);2(伊犁师范学院电子与信息工程学院新疆伊宁835000);3(江苏方天电力技术有限公司南京211102)(qxl_0712@sina.com)出版日期:2018-08-01基金资助:国家自然科学 ...
    本站小编 Free考研考试 2022-01-01
  • 基于神经网络探究标签依赖关系的多标签分类
    宋攀,景丽萍(交通数据分析与挖掘北京市重点实验室(北京交通大学)北京100044)(16120413@bjtu.edu.cn)出版日期:2018-08-01基金资助:国家自然科学基金项目(61370129,61375062,61632004,61773050)Thisworkwassupported ...
    本站小编 Free考研考试 2022-01-01
  • 基于网络欺骗的家用无线路由器防护方法
    刘奇旭1,2,徐辰晨1,2,刘井强1,胡恩泽1,2,靳泽1,21(中国科学院信息工程研究所北京100093);2(中国科学院大学网络空间安全学院北京100049)(liujingqiang@iie.ac.cn)出版日期:2018-07-01基金资助:国家重点研发计划项目(2016YFB0801604 ...
    本站小编 Free考研考试 2022-01-01
  • 基于关键信息的问题相似度计算
    齐乐,张宇,刘挺(哈尔滨工业大学社会计算与信息检索研究中心哈尔滨150001)(lqi@ir.hit.edu.cn)出版日期:2018-07-01基金资助:国家“九七三”重点基础研究发展计划基金项目(2014CB340503);国家自然科学基金项目(61472105,61502120)Questio ...
    本站小编 Free考研考试 2022-01-01
  • 基于多通道卷积神经网络的中文微博情感分析
    陈珂1,梁斌2,柯文德1,许波1,曾国超11(广东石油化工学院计算机科学与技术系广东茂名525000);2(苏州大学计算机科学与技术学院江苏苏州215000)(chenke2001@163.com)出版日期:2018-05-01基金资助:国家自然科学基金项目(61272382,61672174);广 ...
    本站小编 Free考研考试 2022-01-01
  • 2018网络功能虚拟化专题前言
    徐明伟(清华大学)出版日期:2018-04-01Online:2018-04-01摘要/Abstract摘要:图灵奖得主ButlerLampson提出了一切皆可计算的概念,这一概念的实现不仅得益于数学模型的发展和计算、存储能力的提高,也离不开虚拟化的思想,它使得通用的计算 ...
    本站小编 Free考研考试 2022-01-01
  • 基于忆阻器交叉阵列的卷积神经网络电路设计
    胡飞,尤志强,刘鹏,邝继顺(嵌入式与网络计算省重点实验室(湖南大学)长沙410082)(湖南大学信息科学与工程学院长沙410082)(hu_qingfeng@126.com)出版日期:2018-05-01基金资助:国家自然科学基金项目(61472123);湖南省自然科学基金项目(2018JJ2064 ...
    本站小编 Free考研考试 2022-01-01
  • 面向网络功能虚拟化的高性能负载均衡机制
    王煜炜1,2,刘敏1,马诚1,2,李鹏飞1,21(中国科学院计算技术研究所北京100190);2(中国科学院大学北京100049)(wangyuwei@ict.ac.cn)出版日期:2018-04-01基金资助:国家自然科学基金项目(61472404,61732017,61472402,615011 ...
    本站小编 Free考研考试 2022-01-01
  • 网络功能虚拟化技术研究综述
    周伟林1,杨芫2,3,徐明伟2,31(北京邮电大学网络技术研究院北京100876);2(清华大学计算机科学与技术系北京100084);3(北京信息科学与技术国家研究中心北京100084)(zhou_weilin@bupt.edu.cn)出版日期:2018-04-01基金资助:国家自然科学基金项目(6 ...
    本站小编 Free考研考试 2022-01-01