1(苏州大学计算机科学与技术学院 江苏苏州 215006); 2(计算机软件新技术国家重点实验室 (南京大学) 南京 210023) (xfzhang@suda.edu.cn)
出版日期: 2019-03-01基金资助:国家自然科学基金项目(61772263,61772014,61572375);苏州市科技发展计划基金项目(SYG201807)An Adaptive Algorithm in Multi-Armed Bandit Problem
Zhang Xiaofang1,2, Zhou Qian1, Liang Bin1, Xu Jin11(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006); 2(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023)
Online: 2019-03-01摘要/Abstract
摘要: 多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂赌博机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂赌博机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力.
参考文献
相关文章 15
| [1] | 谭建豪, 张思远. 基于自适应空间正则化的视觉目标跟踪算法[J]. 计算机研究与发展, 2021, 58(2): 427-435. |
| [2] | 周航, 詹永照, 毛启容. 基于时空融合图网络学习的视频异常事件检测[J]. 计算机研究与发展, 2021, 58(1): 48-59. |
| [3] | 胡晓艳, 童钟奇, 徐恪, 张国强, 郑少琦, 赵丽侠, 程光, 龚俭. 命名数据网络中的视频传输研究综述[J]. 计算机研究与发展, 2021, 58(1): 116-136. |
| [4] | 刘思, 张德干, 刘晓欢, 张婷, 吴昊. 一种基于判定区域的AODV路由的自适应修复算法[J]. 计算机研究与发展, 2020, 57(9): 1898-1910. |
| [5] | 李德权, 许月, 薛生. 基于动态约束自适应方法抵御高维鞍点攻击[J]. 计算机研究与发展, 2020, 57(9): 2001-2008. |
| [6] | 刘艳芳, 李文斌, 高阳. 基于自适应邻域嵌入的无监督特征选择算法[J]. 计算机研究与发展, 2020, 57(8): 1639-1649. |
| [7] | 朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类[J]. 计算机研究与发展, 2020, 57(8): 1683-1696. |
| [8] | 邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459. |
| [9] | 卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554. |
| [10] | 范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139. |
| [11] | 亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238. |
| [12] | 刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687. |
| [13] | 王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698. |
| [14] | 贾颖霞, 郎丛妍, 冯松鹤. 基于类别相关的领域自适应交通图像语义分割方法[J]. 计算机研究与发展, 2020, 57(4): 876-887. |
| [15] | 吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589. |
PDF全文下载地址:
https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3894
