一种解决连续空间问题的真实在线自然梯度AC算法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2022-01-02

摘要:策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究，但由于在策略估计过程中存在较大方差，因此，基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题，在行动者-评论家（actor-critic，简称AC）算法框架下，提出了真实在线增量式自然梯度AC（true online incremental natural actor-critic，简称TOINAC）算法.TOINAC算法采用优于传统梯度的自然梯度，在真实在线时间差分（true online time difference，简称TOTD）算法的基础上，提出了一种新型的前向观点，改进了自然梯度行动者-评论家算法.在评论家部分，利用TOTD算法高效性的特点来估计值函数；在行动者部分，引入一种新的前向观点来估计自然梯度，再利用资格迹将自然梯度估计变为在线估计，提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合，解决了连续空间问题.最后，在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验，验证了算法的有效性.

Abstract:Policy gradient methods have been extensively studied as a solution to the continuous space control problem. However, due to the presence of high variance in the gradient estimation, policy gradient based methods are restricted by low sample data utilization and slow convergence. Aiming at solving this problem, utilizing the framework of actor-critic algorithm, a true online incremental natural actor-critic (TOINAC) algorithm, which takes advantage of the natural gradient that is superior to conventional gradient, and is based on true online time difference (TOTD), is proposed. In the critic part of TOINAC algorithm, the efficiency of TOTD is adopted to estimate the value function, and in the actor part of TOINAC algorithm, a novel forward view is introduced to compute and estimate natural gradient. Then, eligibility traces are utilized to turn natural gradient into online estimation, thereby improving the accuracy of natural gradient and efficiency of the method. The TOINAC algorithm is used to integrate with the kernel method and normal distribution policy to tackle the continuous space problem. The simulation tests on cart pole, Mountain Car and Acrobot, which are classical benchmark tests for continuous space problem, verify the effeteness of the algorithm.

PDF全文下载地址:

http://jos.org.cn/jos/article/pdf/5251

相关话题/自然 空间 实验 梯度 算法

领限时大额优惠券,享本站正版考研考试资料!
优惠券领取后72小时内有效，10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材，产品类型包含电子书、题库、全套资料以及视频，无论您是考研复习、考证刷题，还是考前冲刺等，不同类型的产品可满足您学习上的不同需求。 ...
考试优惠券本站小编 Free壹佰分学习网 2022-09-19
带静不平衡约束的矩形装填问题的启发式算法
摘要:卫星舱布局问题不仅是一个复杂的耦合系统设计问题，也是一个特殊的优化问题，具有NP难度性.解决这类问题最大的挑战在于需要优化的目标函数具有大量被高能势垒分隔开的局部极小值点.Wang-Landau（WL）抽样算法是一种改进的蒙特卡罗方法，已被成功地运用于蛋白质结构预测等优化问题.以卫星舱布局优化 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
可扩展机器学习的并行与分布式优化算法综述
摘要:机器学习问题通常会转换成一个目标函数去求解，优化算法是求解目标函数中参数的重要工具.在大数据环境下，需要设计并行与分布式的优化算法，通过多核计算和分布式计算技术来加速训练过程.近年来，该领域涌现了大量研究工作，部分算法也在各机器学习平台得到广泛应用.针对梯度下降算法、二阶优化算法、邻近梯度算法 ...
中科院软件研究所本站小编 Free考研考试 2022-01-02
中国动植物自然物候长序列数据集研制
摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料，是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制，研制出1981～2018年中国动植物自然物候长序列数据集，分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
中国动植物自然物候长序列数据集研制
摘要摘要:中国气象档案馆馆藏1981年以来的木本、草本、虫鸟两栖动物自然物候观测资料，是现有中国境内覆盖范围最广、持续时间最长的自然物候观测数据。通过对数字化档案与电子报文进行数据清洗与质量控制，研制出1981～2018年中国动植物自然物候长序列数据集，分为木本、草本、虫鸟两栖动物3个子集。其中草本 ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
基于CCM算法的北半球环状模与东北亚冬季地面气温因果关系的年际变化特征研究
摘要摘要:北半球环状模(NorthernHemisphereAnnularMode,NAM)是北半球冬季最主要的环流系统，其变化对北半球的冬季气候变率具有重要的影响。现有研究多采用相关、合成等统计方法对NAM及气候要素进行研究，鲜少从因果关系的角度来进行分析。本文基于收敛交叉映射（Convergen ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
基于CCM算法的北半球环状模与东北亚冬季地面气温因果关系的年际变化特征研究
摘要摘要:北半球环状模(NorthernHemisphereAnnularMode,NAM)是北半球冬季最主要的环流系统，其变化对北半球的冬季气候变率具有重要的影响。现有研究多采用相关、合成等统计方法对NAM及气候要素进行研究，鲜少从因果关系的角度来进行分析。本文基于收敛交叉映射（Convergen ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
阿尔山地区积雪深度微波遥感反演算法的改进与验证
摘要摘要:利用阿尔山地区多年实测雪深数据评估3种微波遥感雪深数据，即星载微波成像仪AMSR-E（AdvancedMicrowaveScanningRadiometerforEOS）和AMSR-2（AdvancedMicrowaveScanningRadiometer2）的积雪产品、国内****建立的 ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
CINRAD-SA偏振雷达定量降水估测算法改进及应用评估
摘要摘要:为了提高雷达定量降水估测的精度，建立一套高精度的双偏振雷达定量降水估测方法，并对其在业务应用中的表现进行评估。本文利用雨滴谱仪数据使用非球形粒子的散射模型（T-Matrix模型）进行不同偏振量的模拟计算，根据计算结果对实测雨滴谱数据（DSD）进行分类拟合，实现对CSU-HIDRO（Colo ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
高阶<bold>Runge-Kutta-Li</bold>算法对二维线性平流方程的计算检验
摘要摘要:利用高阶Li空间微分方案(Li,2005)，实现了时间积分为3～6阶Runge-Kutta-Li(RKL)格式的求解算法。二维线性平流方程的试验结果表明：在计算稳定的条件下，各阶算法的计算误差随时间的推移基本上是线性增加的。非转动背景场的平流算例中（高斯型的初值），高阶RKL算法可以取得较 ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02
基于西南地区台站降雨资料空间插值方法的比较
摘要摘要:以西南地区1996~2000年93个气象台站观测的月均降雨量为基础，对各月降雨量进行空间自相关性，变异特征等空间分析后，采用反距离加权法（IDW）和以不同变异函数模型（指数模型、球面模型、高斯模型）为基础的普通克里金（O-Kriging）两种方法进行空间插值，通过交叉验证结果对两种方法进行 ...
中科院大气物理研究所本站小编 Free考研考试 2022-01-02