删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

[成果]贝叶斯伪逆学习器:从不确定性到确定性学习

本站小编 Free考研考试/2021-12-25

我们知道,现实世界中很多问题是不确定的。在人工智能研究领域,对于不确定性问题,通常采用概率统计模型来描述。然而,大多数概率模型都是难以处理的,并且训练过程也非常困难。因此,必须利用一些近似方法使其成为一个可以求解的问题。众所周知,在概率统计模型的应用中,一个中心任务是在给定观察变量X时,估计隐变量Z的后验分布1626763876145084491.png,并且估计该分布计算的期望值。贝叶斯变分推理是一个很好的选择,变分推理将推理任务转化为了优化问题,然后使用梯度下降法解决该优化问题。但是不可避免地,它也面临着梯度下降方法的缺点。另一种变分推理的方法是基于变分目标的随机优化,其中噪声梯度由变分分布的蒙特卡洛样本计算。这种算法计算了变分自由能(ELBO)的梯度,然而,随机优化和蒙特卡洛方法仍存在一定的不确定性,梯度下降方法也难以实现快速学习。


Pseudo-inverse learners(PILs)是一种用伪逆学习(PIL)算法训练的前馈神经网络,最早可追溯到1995年。PIL是我们首次提出的一种非梯度下降学习方法,相比于经典的梯度下降学习算法,其主要优点在于计算代价更低,计算速度更快,不要求激活函数可微分。PIL尤其是在小规模计算,例如边缘计算研究领域的表现更为明显。然而,PIL多用于确定性学习问题。


因此,为解决目前在深度学习中网络结构难以确定,基于随机梯度下降的学习算法带来的不确定性问题,我们提出了一种称为为贝叶斯伪逆学习(BPIL)的近似协同学习(Approximated Synergetic Learning --ASL)的方案,将不确定学习转化为确定性学习。


在所提出的BPIL算法中,我们将后验概率密度函数设为:


1626764284367030043.png


其中1626764291239039693.png是一种伪逆学习器,比如MLP-PIL。


论文中提出的BPIL中,采用SLS(协同学习系统)的框架,子系统的模型使用概率模型,并且用PIL方法代替梯度下降算法。在该方法中,假设Z是隐变量,1626764298741046258.png属于一类分布,设Z的元素被划分为M个不相交的群,用1626764321739072251.png表示,其中1626764326573089318.png,然后q分布对这些组进行因式分解,这种分解形式在物理学中被称为平均场理论,将平均场理论用于变分推理中,即:


1626764331716048073.png


1626764340929077199.png是一个非参数核密度分布:


1626764346023073662.png


在该方法中,不确定性问题用概率模型表示,然后采用ASL方法来实现概率模型转换,使用PIL来训练BPIL,并且使用ASL方法导出的正则化超参数估计公式:


1626764350735087844.png


我们认为多层感知器(MLP)是堆叠的自动编码器加上一个单层分类器。在学习处理中,引入辅助层构造自编码器,在获得编码器连接权值矩阵后,将该辅助层(解码器)丢弃,编码器的输出发送到PIL分类器。采用我们提出的伪逆学习自编码算法(PILAE),不需要用户设置学习参数。更为重要的贡献是在BPIL框架下,构建深度神经网络的基础模块是非可微分构件。下图给出了搜索深度神经网络(NAS)最优体系结构的过程。利用训练数据构造自编码器,利用验证数据确定超参数,包括隐神经元数和权值衰减正则化参数。测试数据用于计算网络输出精度,从而判断该学习者是否满足给定的任务要求。如果达到任务要求,网络将停止生长并退出训练处理。否则,网络增长一层,以这种方式实现动态网络结构优化。这种深度网络结构优化的策略可用到自动机器学习中去,为破解深度学习中的网络拓扑结构设计难的困境迈出了重要的一步。




1626763367031099127.png


使用该算法在MNIST数据集和Fashion-MNIST数据集中与传统的算法和其他优化算法做了对比实验,分类的精确度对比如下:


1626763421020079081.png


可以看到BPIL在分类中有更好的表现。时间的对比图如下:


1626763439276004554.png


相比于传统的BP算法,BPIL的计算代价大大减少,并且BPIL和其他优化算法相差不多,在几秒到几十秒的差距内,但却提高了精度。


上述研究成果于2021年6月在线发表在人工智能领域期刊《IEEE Transactions on Cybernetics》,题为《Bayesian Pseudoinverse Learners: From Uncertainty to Deterministic Learning》。该论文的第一作者单位与通讯作者单位均为北京师范大学,第一作者为人工智能学院的尹乾副教授,通讯作者为系统科学学院的郭平教授。该研究得到了科技创新2030—“新一代人工智能”重大项目课题的资助((No. 2018AAA0100203)。
原文链接:https://doi.org/10.1109/TCYB.2021.3079906






相关话题/计算 网络 概率 优化 数据