删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于TD-error自适应校正的深度Q学习主动采样方法

本站小编 Free考研考试/2022-01-01

白辰甲,刘鹏,赵巍,唐降龙
(哈尔滨工业大学计算机科学与技术学院模式识别与智能系统研究中心 哈尔滨 150001) (bai_chenjia@stu.hit.edu.cn)
出版日期: 2019-02-01


基金资助:国家自然科学基金项目(61671175,61672190)

Active Sampling for Deep Q-Learning Based on TD-error Adaptive Correction

Bai Chenjia, Liu Peng, Zhao Wei, Tang Xianglong
(Pattern Recognition and Intelligent System Research Center, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001)
Online: 2019-02-01







摘要/Abstract


摘要: 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量.






[1]谭建豪, 张思远. 基于自适应空间正则化的视觉目标跟踪算法[J]. 计算机研究与发展, 2021, 58(2): 427-435.
[2]周航, 詹永照, 毛启容. 基于时空融合图网络学习的视频异常事件检测[J]. 计算机研究与发展, 2021, 58(1): 48-59.
[3]胡晓艳, 童钟奇, 徐恪, 张国强, 郑少琦, 赵丽侠, 程光, 龚俭. 命名数据网络中的视频传输研究综述[J]. 计算机研究与发展, 2021, 58(1): 116-136.
[4]刘思, 张德干, 刘晓欢, 张婷, 吴昊. 一种基于判定区域的AODV路由的自适应修复算法[J]. 计算机研究与发展, 2020, 57(9): 1898-1910.
[5]李德权, 许月, 薛生. 基于动态约束自适应方法抵御高维鞍点攻击[J]. 计算机研究与发展, 2020, 57(9): 2001-2008.
[6]刘艳芳, 李文斌, 高阳. 基于自适应邻域嵌入的无监督特征选择算法[J]. 计算机研究与发展, 2020, 57(8): 1639-1649.
[7]朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类[J]. 计算机研究与发展, 2020, 57(8): 1683-1696.
[8]邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459.
[9]卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[10]范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139.
[11]亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238.
[12]刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687.
[13]王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698.
[14]贾颖霞, 郎丛妍, 冯松鹤. 基于类别相关的领域自适应交通图像语义分割方法[J]. 计算机研究与发展, 2020, 57(4): 876-887.
[15]吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3862
相关话题/计算机 网络 智能 经验 环境

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于多目标演化聚类的大规模动态网络社区检测
    李赫,印莹,李源,赵宇海,王国仁(东北大学计算机科学与工程学院沈阳110819)(15040107713@163.com)出版日期:2019-02-01基金资助:国家自然科学基金项目(61772124,61332014);中央高校基本科研业务费专项资金(N150404008,N150402002)L ...
    本站小编 Free考研考试 2022-01-01
  • 移动蜂窝网络流量的时延特征识别方法研究
    魏松杰,吴超,罗娜,张功萱(南京理工大学计算机科学与工程学院南京210094)(swei@njust.edu.cn)出版日期:2019-02-01基金资助:国家自然科学基金项目(61472189);赛尔网络下一代互联网技术创新项目(NGII20160105,NGII20160601);空中交通管理系 ...
    本站小编 Free考研考试 2022-01-01
  • 单帧图像下的环境光遮蔽估计
    郭雨潇1,陈雷霆1,2,董悦31(电子科技大学计算机科学与工程学院成都611731);2(电子科技大学广东电子工程信息研究院广东东莞523808);3(微软亚洲研究院北京100080)(yuxiao.guo@outlook.com)出版日期:2019-02-01基金资助:广东省应用型科技研发专项资金 ...
    本站小编 Free考研考试 2022-01-01
  • 主编寄语--纪念《计算机研究与发展》创刊六十周年
    徐志伟(中国科学院计算技术研究所北京100190)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要:时光荏苒,《计算机研究与发展》已经走过六十年,其前身为《电子计算机动态》,创刊于1958年12月,是我国第一个计算机刊物。当时我国的计算机事业刚刚起步,《电子 ...
    本站小编 Free考研考试 2022-01-01
  • 祝贺《计算机研究与发展》创刊六十周年
    陈熙霖(中国科学院计算技术研究所北京100190)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要:今年是改革开放四十周年,也是《计算机研究与发展》创刊六十周年。《计算机研究与发展》见证了中国计算机事业从无到有、从小到大的全过程。作为国内最早的,甚至在很长一 ...
    本站小编 Free考研考试 2022-01-01
  • 和《计算机研究与发展》一起成长
    陆汝钤(中国科学院数学与系统科学研究院)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要:每年金秋总有两个节日紧随一起:中秋节和国庆节(按时间先后)。今年可不寻常,徐主编告诉我《计算机研究与发展》(以下简称《研发》)创刊60周年了。这是我国的第一个计算机刊物 ...
    本站小编 Free考研考试 2022-01-01
  • 智能芯片的评述和展望
    韩栋1,2,周聖元1,2,支天1,陈云霁1,2,陈天石1,31(中国科学院计算技术研究所智能处理器中心北京100190);2(中国科学院大学北京100049);3(上海寒武纪信息科技有限公司上海201203)(handong2014@ict.ac.cn)出版日期:2019-01-01基金资助:国家重 ...
    本站小编 Free考研考试 2022-01-01
  • 面向控域的体系结构:一种智能万物互联的体系结构风格
    徐志伟,曾琛,朝鲁,彭晓晖(中国科学院计算技术研究所北京100190)(中国科学院大学北京100049)(zxu@ict.ac.cn)出版日期:2019-01-01基金资助:国家自然科学基金重点项目(61532016);中国科学院率先行动“****”(Y704061000)Zone-Oriented ...
    本站小编 Free考研考试 2022-01-01
  • 基于深度神经网络的图像碎片化信息问答算法
    王一蕾,卓一帆,吴英杰,陈铭钦(福州大学数学与计算机科学学院福州350108)(yilei@fzu.edu.cn)出版日期:2018-12-01基金资助:福建省自然科学基金项目(2018J01779)QuestionAnsweringAlgorithmonImageFragmentationInfo ...
    本站小编 Free考研考试 2022-01-01
  • 基于因果知识网络的攻击场景构建方法
    王硕,汤光明,王建华,孙怡峰,寇广(解放军信息工程大学郑州450001)(WaltShuo@163.com)出版日期:2018-12-01基金资助:国家自然科学基金项目(61303074)AttackScenarioConstructionMethodBasedonCausalKnowledgeNe ...
    本站小编 Free考研考试 2022-01-01