删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

一种基于广义异步值迭代的规划网络模型

本站小编 Free考研考试/2022-01-02

摘要:近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性来合理分配规划时间,广义值迭代网络中的每一轮迭代都需要在整个状态空间的所有状态上同步执行.当状态空间较大时,这样的同步更新会降低网络的规划性能.用异步更新的思想来进一步研究广义值迭代网络.通过在值迭代过程中定义状态优先级并执行异步值更新,提出了一种新型的异步规划网络模型——广义异步值迭代网络.在未知的非规则结构任务中,与广义值迭代网络相比,广义异步值迭代网络具有更高效且更有效的规划过程.进一步地,改进了广义值迭代网络中的强化学习算法及图形卷积算子,并通过在非规则图形和真实地图中的路径规划实验验证了改进方法的有效性.



Abstract:In recent years, how to generate policies with generalization abilities has become one of the hot issues in the field of deep reinforcement learning, and many related research achievements have appeared. One representative work among them is generalized value iteration network (GVIN). GVIN is a differential planning network that uses a special graph convolution operator to approximately represent a state-transition matrix, and uses the value iteration (VI) process to perform planning during the learning of structure information in irregular graphs, resulting in policies with generalization abilities. In GVIN, each round of VI involves performing value updates synchronously at all states over the entire state space. Since there is no consideration about how to rationally allocate the planning time according to the importance of states, synchronous updates may degrade the planning performance of network when the state space is large. This work applies the idea of asynchronous update to further study GVIN. By defining the priority of each state and performing asynchronous VI, a planning network is proposed, it is called generalized asynchronous value iteration network (GAVIN). In unknown tasks with irregular graph structure, compared with GVIN, GAVIN has a more efficient and effective planning process. Furthermore, this work improves the reinforcement learning algorithm and the graph convolutional operator in GVIN, and their effectiveness are verified by path planning experiments in irregular graphs and real maps.



PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/6077
相关话题/网络 规划 结构 过程 空间

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 基于贝叶斯网络的时间序列因果关系学习
    摘要:贝叶斯网络是研究变量之间因果关系的有力工具,基于贝叶斯网络的因果关系学习包括结构学习与参数学习两部分,其中,结构学习是核心.目前,贝叶斯网络主要用于发现非时间序列数据中所蕴含的因果关系(非时间序列因果关系),从数据中学习得到的也均是一般变量之间的因果关系.针对这些情况,结合时间序列预处理、时间 ...
    本站小编 Free考研考试 2022-01-02
  • 基于双注意力残差循环单幅图像去雨集成网络
    摘要:降雨会严重降低拍摄图像质量和影响户外视觉任务.由于不同图像中,雨的形状、方向和密度不同,导致单幅图像去雨是一项困难的任务.提出一种新的基于双注意力的残差循环单幅图像去雨集成网络(简称RDARENet).在网络中,因为上下文的信息对于去除雨痕十分重要,所以首先采用多尺度的扩张卷积网络去获得更大的 ...
    本站小编 Free考研考试 2022-01-02
  • 面向图像场景转换的改进型生成对抗网络
    摘要:设计了新的生成器网络、判决器网络以及新的损失函数,用于图像场景转换.首先,生成器网络采用了带跨层连接结构的深度卷积神经网络,其中,多个跨层连接以实现图像结构信息的共享;而判决器网络采用了多尺度全域卷积网络,多尺度判决器可以区分不同尺寸下的真实和生成图像.同时,对于损失函数,该算法借鉴其他算法提 ...
    本站小编 Free考研考试 2022-01-02
  • 基于卷积神经网络的低嵌入率空域隐写分析
    摘要:近年来,基于深度学习的空域隐写分析研究在高嵌入率下已经取得了较好的成果,但是对低嵌入率的检测效果还不太理想.因此设计了一种卷积神经网络结构,使用SRM滤波器进行预处理来获取隐写噪声残差,采用3个卷积层并对卷积核大小进行合理设计,通过适当选择批量归一化操作和激活函数来提升网络的性能.实验结果表明 ...
    本站小编 Free考研考试 2022-01-02
  • 一种超低损失的深度神经网络量化压缩方法
    摘要:深度神经网络(deepneuralnetwork,简称DNN)量化是一种高效的模型压缩方法,使用少量位宽表示模型计算过程中的参数和中间结果数据.数据位宽会直接影响内存占用、计算效率和能耗.以往的模型量化研究缺乏有效的定量分析,这导致量化损失难以预测.提出了一种超低损失的DNN量化方法(ultr ...
    本站小编 Free考研考试 2022-01-02
  • 基于关联记忆网络的中文细粒度命名实体识别
    摘要:细粒度命名实体识别是对文本中的实体进行定位,并将其分类至预定义的细粒度类别中.目前,中文细粒度命名实体识别仅使用预训练语言模型对句子中的字符进行上下文编码,并没有考虑到类别的标签信息具有区分实体类别的能力.由于预测句子不带有实体标签,使用关联记忆网络来捕获训练集句子的实体标签信息,并将标签信息 ...
    本站小编 Free考研考试 2022-01-02
  • 多等级通信半径的无源传感器网络中的覆盖问题
    摘要:无源传感器网络是近年来兴起的一种新型的网络结构,可用于解决传统无线传感器网络能量有限、寿命受限的问题.在无源传感器网络中,每个无源传感器节点配备有能量收集模块,可以从周围环境中获取能量.由于周围环境中的能量是无限的,这样,从能量的角度来讲,无源传感器网络的网络寿命是无限的.这样就解决了传统无线 ...
    本站小编 Free考研考试 2022-01-02
  • 基于指针生成网络的代码注释自动生成模型
    摘要:代码注释在软件质量保障中发挥着重要的作用,它可以提升代码的可读性,使代码更易理解、重用和维护.但是出于各种各样的原因,有时开发者并没有添加必要的注释,使得在软件维护的过程中,往往需要花费大量的时间来理解代码,大大降低了软件维护的效率.近年来,多项工作利用机器学习技术自动生成代码注释,这些方法从 ...
    本站小编 Free考研考试 2022-01-02
  • 基于多源特征空间的微服务可维护性评估
    摘要:软件企业实践将遗留软件系统解耦成基于微服务架构的系统,以提高软件的可维护性,达到较快市场交付.评估微服务开发阶段的代码可维护性是一个关键问题,其面临数据多源化、可维护性关注点多样化的难点.通过分析源代码、代码运行轨迹、代码修订历史,提出一种多源特征空间模型以统一表示软件多源数据,并基于该模型, ...
    本站小编 Free考研考试 2022-01-02
  • 基于完全有限前缀展开的行为等价过程树生成算法
    摘要:过程树能够兼具过程模型的行为和结构,在简化模型结构的复杂度方面具有重要意义.现有过程树转化仅能将基于块结构的简单过程模型转化为过程树,无法将具有复杂结构的过程模型转化过程树.为此,提出了一种基于完全有限前缀展开的行为等价过程树生成算法,用于将与过程树行为等价的过程模型转化为行为等价过程树.该方 ...
    本站小编 Free考研考试 2022-01-02