(哈尔滨工业大学计算机科学与技术学院模式识别与智能系统研究中心 哈尔滨 150001) (bai_chenjia@stu.hit.edu.cn)
出版日期:
2019-02-01基金资助:
国家自然科学基金项目(61671175,61672190)Active Sampling for Deep Q-Learning Based on TD-error Adaptive Correction
Bai Chenjia, Liu Peng, Zhao Wei, Tang Xianglong(Pattern Recognition and Intelligent System Research Center, School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001)
Online:
2019-02-01摘要/Abstract
摘要: 强化学习中智能体与环境交互的成本较高.针对深度Q学习中经验池样本利用效率的问题,提出基于TD-error自适应校正的主动采样方法.深度Q学习训练中样本存储优先级的更新滞后于Q网络参数的更新,存储优先级不能准确反映经验池中样本TD-error的真实分布.提出的TD-error自适应校正主动采样方法利用样本回放周期和Q网络状态建立优先级偏差模型,估计经验池中样本的真实优先级.在Q网络迭代中使用校正后的优先级选择样本,偏差模型在学习过程中分段更新.分析了Q网络学习性能与偏差模型阶数和模型更新周期之间的依赖关系,并对算法复杂度进行了分析.方法在Atari 2600平台进行了实验,结果表明,使用TD-error自适应校正的主动采样方法选择样本提高了智能体的学习速度,减少了智能体与环境的交互次数,同时改善了智能体的学习效果,提升了最优策略的质量.
参考文献
相关文章 15
[1] | 谭建豪, 张思远. 基于自适应空间正则化的视觉目标跟踪算法[J]. 计算机研究与发展, 2021, 58(2): 427-435. |
[2] | 周航, 詹永照, 毛启容. 基于时空融合图网络学习的视频异常事件检测[J]. 计算机研究与发展, 2021, 58(1): 48-59. |
[3] | 胡晓艳, 童钟奇, 徐恪, 张国强, 郑少琦, 赵丽侠, 程光, 龚俭. 命名数据网络中的视频传输研究综述[J]. 计算机研究与发展, 2021, 58(1): 116-136. |
[4] | 刘思, 张德干, 刘晓欢, 张婷, 吴昊. 一种基于判定区域的AODV路由的自适应修复算法[J]. 计算机研究与发展, 2020, 57(9): 1898-1910. |
[5] | 李德权, 许月, 薛生. 基于动态约束自适应方法抵御高维鞍点攻击[J]. 计算机研究与发展, 2020, 57(9): 2001-2008. |
[6] | 刘艳芳, 李文斌, 高阳. 基于自适应邻域嵌入的无监督特征选择算法[J]. 计算机研究与发展, 2020, 57(8): 1639-1649. |
[7] | 朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类[J]. 计算机研究与发展, 2020, 57(8): 1683-1696. |
[8] | 邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459. |
[9] | 卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554. |
[10] | 范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139. |
[11] | 亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238. |
[12] | 刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687. |
[13] | 王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698. |
[14] | 贾颖霞, 郎丛妍, 冯松鹤. 基于类别相关的领域自适应交通图像语义分割方法[J]. 计算机研究与发展, 2020, 57(4): 876-887. |
[15] | 吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3862