删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种权重平均值的深度双Q网络方法

本站小编 Free考研考试/2022-01-01

吴金金1,刘全1,2,3,4,陈松1,闫岩1
1(苏州大学计算机科学与技术学院 江苏苏州 215006);2(符号计算与知识工程教育部重点实验室(吉林大学) 长春 130012);3(江苏省计算机信息处理技术重点实验室(苏州大学) 江苏苏州 215006);4(软件新技术与产业化协同创新中心(南京大学) 南京 210023) (20174227020@stu.suda.edu.cn)
出版日期: 2020-03-01


基金资助:国家自然科学基金项目(61772355,61702055,61502323,61502329);江苏省高等学校自然科学研究重大项目(18KJA520011,17KJA520004);吉林大学符号计算与知识工程教育部重点实验室项目(93K172014K04,93K172017K18);苏州市应用基础研究计划工业项目(SYG201422);江苏高校优势学科建设工程资助项目

Averaged Weighted Double Deep Q-Network

Wu Jinjin1, Liu Quan1,2,3,4, Chen Song1, Yan Yan1
1(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006);2(Key Laboratory of Symbolic Computation and Knowledge Engineering (Jilin University), Ministry of Education, Changchun 130012);3(Jiangsu Key Laboratory of Computer Information Processing Technology (Soochow University), Suzhou, Jiangsu 215006);4(Collaborative Innovation Center of Novel Software Technology and Industrialization (Nanjing University), Nanjing 210023)
Online: 2020-03-01


Supported by:This work was supported by the National Natural Science Foundation of China (61772355, 61702055, 61502323, 61502329), the Jiangsu Provincial Natural Science Research University Major Projects (18KJA520011, 17KJA520004), the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education (Jilin University) (93K172014K04, 93K172017K18), the Suzhou Industrial Application of Basic Research Program (SYG201422), and the Priority Academic Program Development of Jiangsu Higher Education Institutions.




摘要/Abstract


摘要: 深度强化学习算法的不稳定性和可变性对其性能有重要的影响.深度Q网络模型在处理需要感知高维输入数据的决策控制任务中性能良好.然而,深度Q网络存在着高估动作值使agent性能变差的问题.尽管深度双Q网络能够缓解高估带来的影响,但是仍然存在低估动作值的问题.在一些复杂的强化学习环境中,即使是很小的估计误差也会对学习到的策略产生很大影响.为了解决深度Q网络中高估动作值和深度双Q网络中低估动作值的问题,提出一种基于权重平均值的深度双Q网络方法(averaged weighted double deep Q-network, AWDDQN),该方法将带权重的双估计器整合到深度双Q网络中.为了进一步地减少目标值的估计误差,通过计算之前学习到的动作估计值的平均值来产生目标值,并且根据时间差分误差动态地确定平均动作值的数量.实验结果表明:AWDDQN方法可以有效减少估计偏差,并且能够提升agent在部分Atari 2600游戏中的表现.






[1]卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[2]陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720.
[3]朱斐,吴文,刘全,伏玉琛. 一种最大置信上界经验采样的深度Q网络方法[J]. 计算机研究与发展, 2018, 55(8): 1694-1705.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=4142
相关话题/网络 计算 江苏 计算机 工程

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于特征对抗对的视觉特征归因网络研究
    张宪1,史沧红2,李孝杰11(成都信息工程大学计算机学院成都610103);2(西南交通大学信息科学与技术学院成都611765)(zhangxian317@gmail.com)出版日期:2020-03-01基金资助:国家自然科学基金项目(61602066,61702058);四川省科技厅****科技 ...
    本站小编 Free考研考试 2022-01-01
  • 一种基于边缘计算的传感云低耦合方法
    梁玉珠1,梅雅欣1,杨毅1,马樱2,贾维嘉3,王田11(华侨大学计算机科学与技术学院福建厦门361021);2(数据挖掘与智能推荐福建省高校重点实验室(厦门理工学院)福建厦门361024);3(智慧城市物联网国家重点实验室(澳门大学)澳门999078)(cs_yuzhuliang@163.com)出 ...
    本站小编 Free考研考试 2022-01-01
  • 面向非易失内存写优化的重计算方法
    张铭,华宇,刘璐荣,胡蓉,李子怡(武汉光电国家研究中心(华中科技大学)武汉430074)(华中科技大学计算机学院武汉430074)(csmzhang@hust.edu.cn)出版日期:2020-02-01基金资助:国家自然科学基金项目(61772212)AWrite-OptimizedRe-comp ...
    本站小编 Free考研考试 2022-01-01
  • 带权值的大规模社交网络数据隐私保护方法
    黄海平1,2,张东军1,2,王凯1,2,朱毅凯3,王汝传1,21(南京邮电大学计算机学院南京210023);2(江苏省无线传感网高技术研究重点实验室(南京邮电大学)南京210023);3(南京大学网络信息中心南京210023)(hhp@njupt.edu.cn)出版日期:2020-02-01基金资助 ...
    本站小编 Free考研考试 2022-01-01
  • 数据中心网络传输协议综述
    曾高雄,胡水海,张骏雪,陈凯(香港科技大学计算机科学与工程系香港999077)(kaichen@cse.ust.hk)出版日期:2020-01-01TransportProtocolsforDataCenterNetworks:ASurveyZengGaoxiong,HuShuihai,ZhangJ ...
    本站小编 Free考研考试 2022-01-01
  • 云计算系统可靠性研究综述
    段文雪1,胡铭1,周琼2,吴庭明1,周俊龙3,刘晓4,魏同权1,陈铭松11(华东师范大学上海市高可信计算重点实验室上海200062);2(上海外国语大学国际金融贸易学院上海200083);3(南京理工大学计算机科学与技术学院南京210094);4(迪肯大学信息技术学院澳大利亚墨尔本VIC3125)( ...
    本站小编 Free考研考试 2022-01-01
  • 基于图注意力网络的因果关系抽取
    许晶航1,左万利1,2,梁世宁1,王英1,21(吉林大学计算机科学与技术学院长春130012);2(符号计算与知识工程教育部重点实验室(吉林大学)长春130012)(xujh17@mails.jlu.edu.cn)出版日期:2020-01-01基金资助:国家自然科学基金项目(61976103,618 ...
    本站小编 Free考研考试 2022-01-01
  • 基于特征融合时序分割网络的行为识别研究
    李洪均1,2,3,4,丁宇鹏1,李超波1,张士兵1,31(南通大学信息科学技术学院江苏南通226019);2(计算机软件新技术国家重点实验室(南京大学)南京210023);3(南通智能信息技术联合研究中心江苏南通226019);4(通科微电子学院江苏南通226019)(lihongjun@ntu.e ...
    本站小编 Free考研考试 2022-01-01
  • 实时模型检测精确加速窗口的计算原理及算法
    王国卿,庄雷,和孟佯,宋玉,马岭(郑州大学信息工程学院郑州450001)(iegqwang@163.com)出版日期:2020-01-01基金资助:国家自然科学基金重点项目(U1604262);河南省高等学校重点科研项目(19A520003,17A520057);河南省科技攻关计划项目(172102 ...
    本站小编 Free考研考试 2022-01-01
  • 2019大数据知识工程及应用专题
    郑庆华(西安交通大学西安710049)出版日期:2019-12-01Online:2019-12-01摘要/Abstract摘要:实际工程问题的求解往往涉及跨领域、跨模态的海量碎片化知识,这些知识不能仅靠专家提供,而需要从环境中动态学习和融合生成.知识工程旨在研究计算机对知识的获取、表征和处理.随着 ...
    本站小编 Free考研考试 2022-01-01