删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于双重竞争策略的学习自动机算法

本站小编 Free考研考试/2022-02-12

狄冲a,齐开悦b,吴越a,苏宇a,李生红a
上海交通大学 a. 网络空间安全学院; b. 电子信息与电气工程学院, 上海 200240

通讯作者:齐开悦,男,讲师,E-mail: tommy-qi@sjtu.edu.cn.
作者简介:狄冲(1995-),男,山东省滕州市人,博士生,主要从事机器学习、增强学习的研究. E-MAIL: dichong95@sjtu.edu.cn
基金资助:国家电网公司总部科技项目(SGRIXTKJ[2017]133)

A Double Competitive Scheme Based Learning Automata Algorithm

DI Chong,QI Kaiyue,WU Yue,SU Yu,LI Shenghong
a. School of Cyber Security; b. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China








摘要/Abstract


摘要: 学习自动机是增强学习理论体系中的重要组成部分,在应用数学的随机函数优化、信息安全的异常检测等理论和实际问题中发挥着重要作用.估计器算法是目前学习自动机中最为主流的一类算法,具有最高的算法性能.但是,由于估计器本身的局限性导致在学习初期估计值不准确,行为选择概率向量无法一直保持最优更新,且概率向量的更新完全依赖于固定步长,一次错误的更新需要大量额外的迭代来对其进行弥补,算法的收敛效率仍存在提升空间.针对上述问题,通过改进估计器算法的概率向量更新策略,提出一种基于双重竞争策略的学习自动机算法,并对其ε-收敛特性进行数学证明.实验结果显示,该算法提高了学习自动机的收敛效率,从而验证并确立了所提策略的有效性和算法的优越性.
关键词: 学习自动机, 增强学习, 估计器算法, 平稳环境, 双重竞争策略
Abstract: Learning automaton (LA) plays an essential part in the theoretical system of reinforcement learning. Not only does LA have important theoretical value, but also has extensive practical value, including many applications in security field. As classic family of LA, estimator algorithms have improved the performance of algorithms to a novel level. However, because of the limitation of estimators, the estimated values are not reliable at the beginning of learning process, which will lead to wrong updates of actions’ selection probability vector. Using current update strategy, the offset of wrong updates only relies on large number of extra iterations. Thus, there is still room for enhancement of convergence efficiency. In this paper, for improving the update strategy of probability vector, we proposed a double competitive scheme based learning automata algorithm and proved its ε-optimality. The simulation results showed that the proposed algorithms reached the highest convergence efficiency and confirmed the validity of proposed probability vector’s update strategy.
Key words: learning automata, reinforcement learning, stationary environments, estimator algorithms, double competitive scheme


PDF全文下载地址:

点我下载PDF
相关话题/概率 空间 环境 上海交通大学 网络

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 大规模网络关联研究综述
    曹雪智,张伟楠,俞勇上海交通大学APEX数据与知识管理实验室,上海200240通讯作者:俞勇,男,教授,博士生导师,电话(Tel.):021-54745879—601;E-mail:yyu@apex.sjtu.edu.cn.作者简介:曹雪智(1991-),男,江苏省南京市人,博士生,主要从事社交网络 ...
    本站小编 Free考研考试 2022-02-12
  • 弹性光网络中基于光路维持时间感知的节能策略
    吕翊,师劲,杨娅娅重庆邮电大学通信与信息工程学院;重庆高校市级光通信与网络重点实验室,重庆400065通讯作者:吕翊(1963-),男,重庆市人,教授,主要研究方向为下一代光网络理论与技术.E-mail:luyi@cqupt.edu.cn.基金资助:国家自然科学基金资助项目(61401052),国家 ...
    本站小编 Free考研考试 2022-02-12
  • 基于属性粒化聚类与回声状态网络的末制导雷达故障诊断
    逯程1,徐廷学1,王虹21.海军航空大学岸防兵学院,山东烟台264001;2.中央军委联合参谋部第55研究所,北京100094通讯作者:徐廷学,男,教授,博士生导师,电话(Tel.):0535-6635483;E-mail:kvcelu@163.com.作者简介:逯程(1990-),男,山东省泰安市 ...
    本站小编 Free考研考试 2022-02-12
  • 防御诽谤攻击的间断连接无线网络数据转发机制
    杨鹏1,2,经尚琪1,3,闫俊杰1,3,杨志刚41.重庆邮电大学通信与信息工程学院,重庆400065;2.中国信息通信研究院,北京100191;3.重庆高校市级光通信与网络重点实验室,重庆400065;4.重庆文理学院软件工程学院,重庆402160出版日期:2018-07-28发布日期:2018-0 ...
    本站小编 Free考研考试 2022-02-12
  • 基于神经网络的蒙特卡罗可靠性分析方法
    陈松坤,王德禹上海交通大学海洋工程国家重点实验室;高新船舶与深海开发装备协同创新中心,上海200240通讯作者:陈松坤(1994-),男,湖北省十堰市人,硕士生,主要研究方向为船舶与海洋工程结构物设计与制造.通信作者:王德禹,男,教授,博士生导师,E-mail:dywang@sjtu.edu.cn. ...
    本站小编 Free考研考试 2022-02-12
  • 基于距离加权的概率数据关联机动目标跟踪算法
    陈晓,李亚安,李余兴,蔚婧西北工业大学航海学院,西安710072基金资助:国家自然科学基金项目(51179157,51409214,11574250)ManeuveringTargetTrackingAlgorithmBasedonWeightedDistanceofProbabilityDataA ...
    本站小编 Free考研考试 2022-02-12
  • 采用特征向量夹角联合概率密度函数的信源个数估计方法
    郭拓1,2,王英民1,张立琛11.西北工业大学航海学院,西安710072;2.陕西科技大学电气与信息工程学院,西安710021SourceNumberEstimationBasedonJointProbabilityDensityFunctionoftheSampleEigenvectorsGUOT ...
    本站小编 Free考研考试 2022-02-12
  • 基于子空间方位稳定性的弱目标检测方法
    孙挺1,2,耿国华2,郑恩明3,王萍41.周口师范学院计算机科学与技术学院,河南周口466000;2.西北大学可视化研究所,西安710069;3.中国科学院声学研究所,北京100190;4.北京神州普惠科技股份有限公司,北京100085基金资助:国家重点基础研究发展规划(973)前期研究专项(201 ...
    本站小编 Free考研考试 2022-02-12
  • 基于位置细胞的空间表征及位置估计模型
    周阳,吴德伟空军工程大学信息与导航学院,西安710077基金资助:国家自然科学基金项目(61273048)SpatialRepresentationandLocationEstimationModelBasedonPlaceCellsZHOUYang,WUDeweiInformationandNav ...
    本站小编 Free考研考试 2022-02-12
  • 蜂窝网络中能量收集基站的能量协作算法
    刘迪迪1,2,林基明3,王俊义3,仇洪冰3,彭捷11.西安电子科技大学通信学院,西安710071;2.广西师范大学电子工程学院,广西桂林541004;3.桂林电子科技大学,广西桂林541004出版日期:2018-03-28发布日期:2018-03-28基金资助:国家自然科学基金项目(61571143 ...
    本站小编 Free考研考试 2022-02-12