基于逆强化学习的示教学习方法综述

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-01

张凯峰,俞扬

(计算机软件新技术国家重点实验室(南京大学) 南京 210023) (zhangkf@lamda.nju.edu.cn)

出版日期: 2019-02-01

基金资助:江苏省自然科学基金项目(BK20160066)

Methodologies for Imitation Learning via Inverse Reinforcement Learning: A Review

Zhang Kaifeng, Yu Yang

(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023)

Online: 2019-02-01

摘要/Abstract

摘要： 随着强化学习在自动机器人控制、复杂决策问题上的广泛应用，强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而，大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设，在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前，通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍，此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法.

参考文献

相关文章 15

[1]	卢海峰, 顾春华, 罗飞, 丁炜超, 杨婷, 郑帅. 基于深度强化学习的移动边缘计算任务卸载研究[J]. 计算机研究与发展, 2020, 57(7): 1539-1554.
[2]	范浩, 徐光平, 薛彦兵, 高赞, 张桦. 一种基于强化学习的混合缓存能耗优化与评价[J]. 计算机研究与发展, 2020, 57(6): 1125-1139.
[3]	亓法欣, 童向荣, 于雷. 基于强化学习DQN的智能体信任增强[J]. 计算机研究与发展, 2020, 57(6): 1227-1238.
[4]	刘辰屹, 徐明伟, 耿男, 张翔. 基于机器学习的智能路由算法综述[J]. 计算机研究与发展, 2020, 57(4): 671-687.
[5]	王桂芝, 吕光宏, 贾吾财, 贾创辉, 张建申. 机器学习在SDN路由优化中的应用研究综述[J]. 计算机研究与发展, 2020, 57(4): 688-698.
[6]	吴金金, 刘全, 陈松, 闫岩. 一种权重平均值的深度双Q网络方法[J]. 计算机研究与发展, 2020, 57(3): 576-589.
[7]	陈红名,刘全,闫岩,何斌,姜玉斌,张琳琳. 基于经验指导的深度确定性多行动者-评论家算法[J]. 计算机研究与发展, 2019, 56(8): 1708-1720.
[8]	张文韬,汪璐,程耀东. 基于强化学习的Lustre文件系统的性能调优[J]. 计算机研究与发展, 2019, 56(7): 1578-1586.
[9]	章晓芳,周倩,梁斌,徐进. 一种自适应的多臂赌博机算法[J]. 计算机研究与发展, 2019, 56(3): 643-654.
[10]	白辰甲,刘鹏,赵巍,唐降龙. 基于TD-error自适应校正的深度Q学习主动采样方法[J]. 计算机研究与发展, 2019, 56(2): 262-280.
[11]	朱斐，吴文，刘全，伏玉琛. 一种最大置信上界经验采样的深度Q网络方法[J]. 计算机研究与发展, 2018, 55(8): 1694-1705.
[12]	王倩，聂秀山，尹义龙. 密集异构网络中基于强化学习的流量卸载算法[J]. 计算机研究与发展, 2018, 55(8): 1706-1716.
[13]	胡晴,吕世超,石志强,孙利民,肖亮. 基于专家系统的高级持续性威胁云端检测博弈[J]. 计算机研究与发展, 2017, 54(10): 2344-2355.
[14]	刘智斌,曾晓勤,刘惠义,储荣. 基于BP神经网络的双层启发式强化学习方法[J]. 计算机研究与发展, 2015, 52(3): 579-587.
[15]	钟珊, 刘全, 傅启明, 章宗长, 朱斐, 龚声蓉. 一种近似模型表示的启发式Dyna优化算法[J]. 计算机研究与发展, 2015, 52(12): 2764-2775.

PDF全文下载地址:

https://crad.ict.ac.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3861

相关话题/计算机 优化 网络 智能 经验

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
基于多目标演化聚类的大规模动态网络社区检测
李赫,印莹,李源,赵宇海,王国仁(东北大学计算机科学与工程学院沈阳110819)(15040107713@163.com)出版日期:2019-02-01基金资助:国家自然科学基金项目(61772124，61332014);中央高校基本科研业务费专项资金(N150404008，N150402002)L ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
移动蜂窝网络流量的时延特征识别方法研究
魏松杰,吴超,罗娜,张功萱(南京理工大学计算机科学与工程学院南京210094)(swei@njust.edu.cn)出版日期:2019-02-01基金资助:国家自然科学基金项目(61472189)；赛尔网络下一代互联网技术创新项目(NGII20160105，NGII20160601)；空中交通管理系 ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
主编寄语--纪念《计算机研究与发展》创刊六十周年
徐志伟(中国科学院计算技术研究所北京100190)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要：时光荏苒，《计算机研究与发展》已经走过六十年，其前身为《电子计算机动态》，创刊于1958年12月，是我国第一个计算机刊物。当时我国的计算机事业刚刚起步，《电子 ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
祝贺《计算机研究与发展》创刊六十周年
陈熙霖(中国科学院计算技术研究所北京100190)出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要：今年是改革开放四十周年，也是《计算机研究与发展》创刊六十周年。《计算机研究与发展》见证了中国计算机事业从无到有、从小到大的全过程。作为国内最早的，甚至在很长一 ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
和《计算机研究与发展》一起成长
陆汝钤（中国科学院数学与系统科学研究院）出版日期:2019-01-01Online:2019-01-01摘要/Abstract摘要：每年金秋总有两个节日紧随一起：中秋节和国庆节（按时间先后）。今年可不寻常，徐主编告诉我《计算机研究与发展》（以下简称《研发》）创刊60周年了。这是我国的第一个计算机刊物 ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
智能芯片的评述和展望
韩栋1,2,周聖元1,2,支天1,陈云霁1,2,陈天石1,31(中国科学院计算技术研究所智能处理器中心北京100190);2(中国科学院大学北京100049);3(上海寒武纪信息科技有限公司上海201203)(handong2014@ict.ac.cn)出版日期:2019-01-01基金资助:国家重 ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
面向控域的体系结构：一种智能万物互联的体系结构风格
徐志伟，曾琛，朝鲁，彭晓晖(中国科学院计算技术研究所北京100190)(中国科学院大学北京100049)(zxu@ict.ac.cn)出版日期:2019-01-01基金资助:国家自然科学基金重点项目(61532016);中国科学院率先行动“****”(Y704061000)Zone-Oriented ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
基于深度神经网络的图像碎片化信息问答算法
王一蕾，卓一帆，吴英杰，陈铭钦(福州大学数学与计算机科学学院福州350108)(yilei@fzu.edu.cn)出版日期:2018-12-01基金资助:福建省自然科学基金项目(2018J01779)QuestionAnsweringAlgorithmonImageFragmentationInfo ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
基于因果知识网络的攻击场景构建方法
王硕，汤光明，王建华，孙怡峰，寇广(解放军信息工程大学郑州450001)(WaltShuo@163.com)出版日期:2018-12-01基金资助:国家自然科学基金项目(61303074)AttackScenarioConstructionMethodBasedonCausalKnowledgeNe ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01
面向电子政务网络建设的信任互联管控模型
陈中林1，单志广2，肖国玉3，陈山枝11(北京邮电大学网络技术研究院北京100876);2(国家信息中心信息化和产业发展部北京100045);3(复旦大学网络安全研究中心上海200433)(chenzl@263.net)出版日期:2018-12-01基金资助:国家自然科学基金重大项目(9101800 ...
中科院计算技术研究所本站小编 Free考研考试 2022-01-01