删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

交叉信息研究院高阳课题组在强化学习领域取得新突破

本站小编 Free考研考试/2021-12-20

清华新闻网11月15日电 近日,清华大学交叉信息研究院高阳研究组在强化学习领域中取得突破,研究组所提出的模型EfficientZero首次在雅达利(Atari)游戏数据上超过同等游戏时长的人类平均水平。EfficientZero的高效率学习能力为强化学习算法应用到现实世界场景提供了更大可能。

EfficientZero在Atari 100k(2h环境数据)基准下与其他算法结果对比
该研究成果一经公开,便在学术圈引发关注和热议,收获大量好评。另有科技方向的博主做了半小时的视频讲解此文,短短两天即有上万人次观看。

网友在Twitter上的转发以及在YouTube上的讲解视频
雅达利游戏是目前强化学习领域最常用的性能测试标准之一,它包含丰富的游戏场景,且各个游戏规则各异。在2015年,Deep Mind团队提出算法DQN,通过200M帧训练数据,在雅达利游戏上达到了人类平均水平。
然而EfficientZero达到同等水平仅仅需要DQN需求数据量的1/500。而低样本效率是限制强化学习算法应用于真实场景的障碍之一,这是因为在真实场景中,实验人员无法像在模拟场景中获取大量数据用于训练模型。这表明EfficientZero的高样本效率与高性能能够让强化学习算法更加贴近真实应用的场景,为强化学习算法能够落地提供了更大的可能性。

部分雅达利游戏展示
EfficientZero是一种基于模型的算法,基于此前的MuZero模型,这类模型一方面通过收集的数据来学习环境模型,从而能够预测环境的变化,另一方面利用所学出的模型预测未来的轨迹和所得回报,通过MCTS进行规划,从而在少量训练数据情况下能够达到较高的性能。EfficientZero提出了三点改进:时序一致性,预测阶段回报,修正目标价值。其中时序一致性的实现是通过计算机视觉领域中的对比学习算法SimSiam实现的,这使得状态转移模型所预测的下一步状态靠近真实轨迹的下一步状态,从而促进状态转移模型的学习。
研究提出,在训练过程中有些状态的回报是很难预测的,因此预测每步状态的回报会有较高的不确定性,但是预测阶段的回报相对来说更加平滑,从而减少这种不确定性。研究组通过更改目标价值函数实现离线策略价值函数的纠正。此外,EfficientZero还在部分模拟机器人控制环境DMControl中进行了实验,并取得了目前最佳性能,这也进一步表明EfficientZero在更复杂的模拟环境情形下仍然能维持高样本效率和高性能。
该成果的研究论文“用有限的数据玩转雅达利游戏”(Mastering Atari Games with Limited Data)被2021年神经信息处理系统进展大会(NeurIPS 2021)接收。该论文的第一作者为交叉信息研究院2020级博士生叶葳蕤,通讯作者为高阳助理教授。其他作者包括加美国加州大学伯克利分校教授彼得·阿贝尔(Pieter Abbeel)、交叉信息研究院2020级硕士生刘绍淮以及加州大学伯克利分校博士生塔纳德·库鲁塔赫(Thanard Kurutach)。
供稿:交叉信息研究院
编辑:李华山
审核:吕婷
2021年11月15日 16:45:40


相关话题/数据 游戏 信息 环境 图片

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 水利系崔一飞获国际工程地质与环境协会理查德·沃尔特斯奖
    清华新闻网11月11日电由国际工程地质与环境协会(IAEG)组织的第三届国际工程地质与环境协会(IAEG)欧洲区域工程地质大会于10月6至10日在希腊雅典举行。经线上答辩和评选委员会无记名投票表决,中国地质学会工程地质专业委员会和国际工程地质与环境协会中国委员会推荐,清华大学水利系副教授崔一飞荣获2 ...
    本站小编 Free考研考试 2021-12-20
  • 环境学院王伟教授主持编写的 《车用生物天然气》和《生物天然气 术语》两项国标正式发布
    清华新闻网11月5日电近日,由清华大学环境学院王伟教授等主持编写,中国标准化研究院、中国石油天然气股份有限公司石油化工研究院等单位共同编写的《车用生物天然气》和《生物天然气术语》两项国家标准,由国家市场监督管理总局(国家标准化管理委员会)正式发布。两项国家标准的发布不仅为我国生物天然气用于车用燃料提 ...
    本站小编 Free考研考试 2021-12-20
  • 深圳国际研究生院师生多篇论文被2021神经信息处理系统大会接收
    清华新闻网10月21日电近日,深圳国际研究生院信息科学与技术学部夏树涛/江勇教授团队、王好谦教授团队和袁春副研究员团队的四篇论文被机器学习领域国际顶级会议神经信息处理系统大会(NeuralInformationProcessingSystems,NeurlPS2021)接收。2017级计算机科学与技 ...
    本站小编 Free考研考试 2021-12-20
  • 清华大学环境学院、碳中和研究院、哈佛大学等联合团队系统解析我国太阳能发电平价路径与并网潜力
    清华新闻网10月19日电(通讯员鲁玺)近日,清华大学环境学院、碳中和研究院、哈佛大学等国内外联合团队在碳中和背景下我国太阳能光伏发电平价动态与并网潜力研究方面取得新进展,系统动态评估了我国技术可行、经济平价、电网兼容的光伏发电潜力,揭示了光伏成本优势下“光伏+储能”的广阔应用前景。该研究成果可为碳中 ...
    本站小编 Free考研考试 2021-12-20
  • 环境学院刘欢团队首次实现海运排放与全球贸易的定量关联
    清华新闻网10月8日电海运作为国际贸易和全球经济的支柱,占世界贸易量的80%以上。然而,繁荣的海上贸易每年带来数十亿吨温室气体排放,给全球气候变化带来持续威胁。为此,国际海事组织宣布了一项减少海运温室气体(GHG)排放的“初步战略”,设定了到2050年与2008年相比减少50%以上的目标。实现该目标 ...
    本站小编 Free考研考试 2021-12-20
  • 交叉信息研究院曾坚阳课题组成功开发多肽和蛋白质相互作用的深度学习模型
    清华新闻网10月4日电近日,清华大学交叉信息研究院曾坚阳课题组成功开发了一个基于序列的多尺度预测多肽和蛋白质相互作用的深度学习模型。该研究为多肽和蛋白质相互作用的机制提供了一个高效的预测框架,可以在为多肽药物预测结合靶点的同时,识别多肽序列上的结合位点。多肽和蛋白质的相互作用在生物体内起到关键的作用 ...
    本站小编 Free考研考试 2021-12-20
  • 交叉信息研究院段路明研究组首次实现多离子协同激光冷却
    清华新闻网10月4日电近日,清华大学交叉信息研究院段路明研究组在离子阱量子信息处理领域取得重要进展,通过对优化选择的少量离子进行激光冷却,首次实现对长离子链的高效协同冷却,获得接近全局激光冷却的极限温度,为多离子比特量子计算准备了技术基础。离子阱体系是目前实现量子计算、量子模拟的主要技术路线之一。当 ...
    本站小编 Free考研考试 2021-12-20
  • 环境学院教授在生态文明贵阳国际论坛2013年年会上作报告
    清华大学环境学院教授在生态文明贵阳国际论坛2013年年会上作报告  清华新闻网7月30日电7月19-21日,生态文明贵阳国际论坛2013年年会在贵阳国际生态会议中心召开。清华大学环境学院院长贺克斌教授和李金惠教授出席本次论坛并作报告。  生态文明贵阳国际论坛自2009年起已连续举办4年,并于今年升格 ...
    本站小编 Free考研考试 2021-12-20
  • 建筑节能与建筑环境科学教育部创新团队通过验收
    清华大学建筑节能与建筑环境科学教育部创新团队通过验收  清华新闻网7月30日电(通讯员魏庆芃)7月30日,清华大学建筑节能与建筑环境科学教育部创新团队在清华大学过验收。团队带头人、清华大学建筑学院江亿院士代表团队作了报告,汇报了2010年以来创新团队建设所取得的成果。图为验收会现场。  由中国工程院 ...
    本站小编 Free考研考试 2021-12-20
  • 清华智能产业研究院发布全球首个基于真实道路场景打造的车路协同数据集
    清华新闻网9月28日电9月27日,在2021世界智能网联汽车大会上,全球首个车路协同DAIR-V2X数据集正式发布,该数据集由清华大学智能产业研究院(AIR)联合北京市高级别自动驾驶示范区、北京车网科技发展有限公司共同发布,百度Apollo提供技术支持。这是全球首个基于真实道路场景打造的车路协同数据 ...
    本站小编 Free考研考试 2021-12-20