删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种自适应的多臂赌博机算法

本站小编 Free考研考试/2022-01-01

章晓芳1,2,周倩1,梁斌1,徐进1
1(苏州大学计算机科学与技术学院 江苏苏州 215006); 2(计算机软件新技术国家重点实验室 (南京大学) 南京 210023) (xfzhang@suda.edu.cn)
出版日期: 2019-03-01


基金资助:国家自然科学基金项目(61772263,61772014,61572375);苏州市科技发展计划基金项目(SYG201807)

An Adaptive Algorithm in Multi-Armed Bandit Problem

Zhang Xiaofang1,2, Zhou Qian1, Liang Bin1, Xu Jin1
1(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006); 2(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023)
Online: 2019-03-01







摘要/Abstract


摘要: 多臂赌博机问题是强化学习中研究探索和利用两者平衡的经典问题,其中,随机多臂赌博机问题是最经典的一类多臂赌博机问题,是众多新型多臂赌博机问题的基础.针对现有多臂赌博机算法未能充分使用环境反馈信息以及泛化能力较弱的问题,提出一种自适应的多臂赌博机算法.该算法利用当前估计值最小的动作被选择的次数来调整探索和利用的概率(chosen number of arm with minimal estimation, CNAME),有效缓解了探索和利用不平衡的问题.同时,该算法不依赖于上下文信息,在不同场景的多臂赌博机问题中有更好的泛化能力.通过理论分析给出了该算法的悔值(regret)上界,并通过不同场景的实验结果表明:CNAME算法可以高效地获得较高的奖赏和较低的悔值,并且具有更好的泛化能力.






[1]谭建豪, 张思远. 基于自适应空间正则化的视觉目标跟踪算法[J]. 计算机研究与发展, 2021, 58(2): 427-435.
[2]周航, 詹永照, 毛启容. 基于时空融合图网络学习的视频异常事件检测[J]. 计算机研究与发展, 2021, 58(1): 48-59.
[3]胡晓艳, 童钟奇, 徐恪, 张国强, 郑少琦, 赵丽侠, 程光, 龚俭. 命名数据网络中的视频传输研究综述[J]. 计算机研究与发展, 2021, 58(1): 116-136.
[4]刘思, 张德干, 刘晓欢, 张婷, 吴昊. 一种基于判定区域的AODV路由的自适应修复算法[J]. 计算机研究与发展, 2020, 57(9): 1898-1910.
[5]李德权, 许月, 薛生. 基于动态约束自适应方法抵御高维鞍点攻击[J]. 计算机研究与发展, 2020, 57(9): 2001-2008.
[6]刘艳芳, 李文斌, 高阳. 基于自适应邻域嵌入的无监督特征选择算法[J]. 计算机研究与发展, 2020, 57(8): 1639-1649.
[7]朱颖雯, 陈松灿. 基于随机投影的高维数据流聚类[J]. 计算机研究与发展, 2020, 57(8): 1683-1696.
[8]邢新颖, 冀俊忠, 姚垚. 基于自适应多任务卷积神经网络的脑网络分类方法[J]. 计算机研究与发展, 2020, 57(7): 1449-1459.
[9]卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[10]范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139.
[11]亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238.
[12]刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687.
[13]王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698.
[14]贾颖霞, 郎丛妍, 冯松鹤. 基于类别相关的领域自适应交通图像语义分割方法[J]. 计算机研究与发展, 2020, 57(4): 876-887.
[15]吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589.





PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3894
相关话题/计算机 网络 信息 智能 优化

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 硬件加速神经网络综述
    陈桂林,马胜,郭阳(国防科技大学计算机学院长沙410073)(cglnudt@163.com)出版日期:2019-02-01基金资助:国家自然科学基金项目(61672526);国防科技大学科研计划项目(ZK17-03-06)SurveyonAcceleratingNeuralNetworkwithH ...
    本站小编 Free考研考试 2022-01-01
  • 基于多目标演化聚类的大规模动态网络社区检测
    李赫,印莹,李源,赵宇海,王国仁(东北大学计算机科学与工程学院沈阳110819)(15040107713@163.com)出版日期:2019-02-01基金资助:国家自然科学基金项目(61772124,61332014);中央高校基本科研业务费专项资金(N150404008,N150402002)L ...
    本站小编 Free考研考试 2022-01-01
  • 基于信息融合的概率矩阵分解链路预测方法
    王智强1,梁吉业1,2,李茹1,21(山西大学计算机与信息技术学院太原030006);2(计算智能与中文信息处理教育部重点实验室(山西大学)太原030006)(zhiq.wang@163.com)出版日期:2019-02-01基金资助:国家自然科学基金项目(U1435212,61432011,618 ...
    本站小编 Free考研考试 2022-01-01
  • 移动蜂窝网络流量的时延特征识别方法研究
    魏松杰,吴超,罗娜,张功萱(南京理工大学计算机科学与工程学院南京210094)(swei@njust.edu.cn)出版日期:2019-02-01基金资助:国家自然科学基金项目(61472189);赛尔网络下一代互联网技术创新项目(NGII20160105,NGII20160601);空中交通管理系 ...
    本站小编 Free考研考试 2022-01-01
  • 主编寄语--纪念《计算机研究与发展》创刊六十周年
    徐志伟(中国科学院计算技术研究所北京100190)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要:时光荏苒,《计算机研究与发展》已经走过六十年,其前身为《电子计算机动态》,创刊于1958年12月,是我国第一个计算机刊物。当时我国的计算机事业刚刚起步,《电子 ...
    本站小编 Free考研考试 2022-01-01
  • 祝贺《计算机研究与发展》创刊六十周年
    陈熙霖(中国科学院计算技术研究所北京100190)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要:今年是改革开放四十周年,也是《计算机研究与发展》创刊六十周年。《计算机研究与发展》见证了中国计算机事业从无到有、从小到大的全过程。作为国内最早的,甚至在很长一 ...
    本站小编 Free考研考试 2022-01-01
  • 和《计算机研究与发展》一起成长
    陆汝钤(中国科学院数学与系统科学研究院)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要:每年金秋总有两个节日紧随一起:中秋节和国庆节(按时间先后)。今年可不寻常,徐主编告诉我《计算机研究与发展》(以下简称《研发》)创刊60周年了。这是我国的第一个计算机刊物 ...
    本站小编 Free考研考试 2022-01-01
  • 智能芯片的评述和展望
    韩栋1,2,周聖元1,2,支天1,陈云霁1,2,陈天石1,31(中国科学院计算技术研究所智能处理器中心北京100190);2(中国科学院大学北京100049);3(上海寒武纪信息科技有限公司上海201203)(handong2014@ict.ac.cn)出版日期:2019-01-01基金资助:国家重 ...
    本站小编 Free考研考试 2022-01-01
  • 面向控域的体系结构:一种智能万物互联的体系结构风格
    徐志伟,曾琛,朝鲁,彭晓晖(中国科学院计算技术研究所北京100190)(中国科学院大学北京100049)(zxu@ict.ac.cn)出版日期:2019-01-01基金资助:国家自然科学基金重点项目(61532016);中国科学院率先行动“****”(Y704061000)Zone-Oriented ...
    本站小编 Free考研考试 2022-01-01
  • 基于深度神经网络的图像碎片化信息问答算法
    王一蕾,卓一帆,吴英杰,陈铭钦(福州大学数学与计算机科学学院福州350108)(yilei@fzu.edu.cn)出版日期:2018-12-01基金资助:福建省自然科学基金项目(2018J01779)QuestionAnsweringAlgorithmonImageFragmentationInfo ...
    本站小编 Free考研考试 2022-01-01