基于噪声柯西分布的社交图像标签优化与标注*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

近年来随着社交网络的蓬勃发展，海量的社交网络图像在被网络用户共享和浏览。海量的图像数据使得精确检索变得困难，故现在迫切需要有效的图像检索技术。基于标签的图像检索是通过建立图像和标签之间的语义关系来进行的。图像标注对图像检索十分重要。目前，用户提供的标签虽然可以在一定程度上描述视觉内容信息，但是这些标签是不准确的。如文献[1]中所述，用户提供的标签只有一半可以描述图像的视觉内容。这是因为现实中社交网络标签通常是不完整、不准确的，甚至有非常大比例的图像是没有标签的(文献[2]中MIRFlickr数据集中有超过50%的图片没有标签)。也就是说，用户提供的标签是弱监督的。而这会增加相关多媒体任务的困难，所以通过学习图像视觉信息和标签语义之间的内在联系来提高社交图像的标签质量是非常必要的。
对于社交网络图像的重标注问题，已提出了多种解决方法。如文献[3]采用了矩阵分解来最小化噪声，从而学习图像-标签的内在关系。文献[4]验证了重标注标签矩阵的低秩性，并且考虑了图像视觉特征的一致性和标签之间的相关性。基于文献[4]中的非负低秩模型，文献[5-7]通过引入2个潜在因子矩阵来分离优化函数，更好地减小重标注标签和观测标签之间的差别，并得到更理想的图像-标签关系模型。上述工作均验证了非负低秩模型在社交图像重标注任务中的有效性。
文献[3-5]中都采用了矩阵分解的方法，并且基于模型泛化能力的考虑，通常采用平方损失函数作为目标函数。然而这其中隐含的基本假设是社交标签中的噪声是服从高斯分布的^[8]。由于中心极限定理^[9]的特点，高斯概率密度函数被广泛应用于信号处理和图像分析等领域中。高斯分布可以很好地拟合最常出现的白噪声。但是在现实中，数据噪声的内在概率分布是未知的，可能存在各种类型的噪声。然而高斯分布能够很好地拟合小噪声的分布情况，而对大噪声比较敏感^[10]。鉴于上述情况，本文选用对大噪声更加鲁棒的柯西分布建模标签噪声，并由于噪声的稀疏性，采用l₁范数来优化噪声矩阵。
另外在图像标注任务中，图像特征对模型训练具有显著意义，具有更深语义的图像特征能显著提升训练效果。在文献[3, 5, 11]中都采用了传统的特征提取方法(如Gist、SIFT、HOG)，这会导致深层语义的丢失。鉴于此，本文根据文献[12]提出利用预训练好的Resnet50网络来提取视觉特征。基于提出的视觉特征和观测标签，本文采用三层卷积神经网络来训练图像-标签模型。此外，为了更快地训练模型，会利用特征矩阵和观测标签矩阵对模型进行预训练。
鉴于此，本文提出了一种基于噪声柯西分布的弱监督非负低秩深度学习(CDNL)模型，来同时解决错误标签重新标注及新图像标注问题。非负低秩模型主要用于对理想标签的优化和对噪声的抑制，通过引入2个潜在因子分离优化目标。柯西分布能够更好地拟合标签噪声，通过优化损失函数，减少理想标签矩阵和观测标签矩阵的差异。另外，为了更好地学习图像和理想标签的内在映射关系，本文选用Resnet50网络来提取深层图像特征，以及CNN网络来学习特征矩阵和标签矩阵的内在关系。本文实验基于2个广泛使用的社交图像数据集，并且和一些最新的先进工作进行对比，来证实本文方法的有效性。
本文主要贡献如下：
1) 提出了一种基于噪声柯西分布的弱监督非负低秩深度学习模型，创新性地利用柯西分布模型建模标签噪声，学习得到视觉特征和标签语义之间更深层次的内在关系。
2) 通过建立不同尺度的柯西分布模型，模拟标签噪声，选择出最拟合标签噪声的柯西模型，从而更好地减少理想标签矩阵和观测标签矩阵之间的差异。
3) 采用预训练的Resnet50模型来提取特征，并利用CNN网络来学习特征与标签之间的映射关系。
4) 本文模型不仅能够细化、补全、重标注社交图像，而且可以标注新图像。
1 相关工作在图像标注领域，许多先前的工作致力于通过学习图像-标签关系模型来提高图像标签质量。其中文献[13-15]是基于监督模型上的，但是随着用户提供的社交图像呈现爆炸式增加，弱监督图像标注与优化成为图像标注领域的难点，大量工作利用传统方法(如文献[6, 11, 16-18])来解决这个问题。而随着深度学习的发展，文献[19]率先将深度学习方法引入图像标注；文献[20]将深度学习和CCA方法结合；文献[3, 5, 21-23]将深度学习与矩阵分解相结合；文献[24-26]则在卷积神经网络的基础上提出了新的网络结构。传统方法通过学习标签之间的语义相关性来探索用户提供的标签语义信息。比如在文献[6]中，通过邻居投票策略来研究图像标签之间的相关性。文献[11]通过删除不准确的标签和增加相关标签，来探究视觉相似性和语义相关性之间的一致性。文献[17]通过低阶矩阵分解来解决标签优化问题。文献[18]通过结合低秩矩阵复原和最大似然估计，来对缺失的标签进行补充，对噪声标签进行细化。然而上述工作在图像视觉特征和学习到的低秩标签空间的联系上缺乏有效性，使得准确性受到限制。
而深度学习方法的出现在一定程度上解决了这一问题。文献[19]证明了深度学习方法在图像标注领域是十分有效的，近几年深度学习方法也广泛应用于图像标注任务，如在文献[20]中认为修正、补全、重标注社会标签的过程，其本质是广义协同过滤的过程。广义协同方法即：相似的图像应该具有相似的标签，具有相同标签的图像也应该具有相似的内容。因此应用协同过滤的方法来处理社会标签是可行的，并提出了CCA模型来对标签进行标注。文献[3, 5]则为了优化非负低秩模型，通过引入潜在因子来分离优化函数，达到分别优化理想标签和噪声标签的目的，并且利用了深度学习模型来训练图像-标签的内在关系。其中文献[5]将基于社会标签的图像标注问题表述为：通过获得低秩的重标注矩阵和稀疏的误差矩阵，来合成观测标签矩阵的问题(由于图像和标签之间的语义相关性，重标注矩阵应当为低秩矩阵，而标注误差不常出现，所以误差矩阵应该是稀疏的)，并且对该问题进行了建模优化。文献[23]通过假设噪声为高斯分布，并结合图像相似性、标签一致性以及矩阵分解模型，来优化基于损失平方和的目标函数。文献[24]利用图卷积网络在部分标签上进行学习，并允许不需要附加标签的组级联接，借此来学习图像-标签关系模型。在文献[25]中，提出利用语义图嵌入的跨模态注意力机制来学习语义标签嵌入，并显式地利用了标签之间的关系，在学习标签嵌入的指导下，生成新颖的跨模态注意力图。文献[26]则在非负低秩矩阵分解的基础上，引入深度学习方法学习标签语义图。上述工作均验证了深度学习能够有效地建立起图像特征和标签语义之间的联系，并且文献[3, 5, 23, 26]验证了矩阵分解方法优化社交标签的有效性。然而上述工作默认噪声符合高斯分布，而实际数据的内在概率分布是未知的，不一定符合高斯分布，所以需要对噪声建模。
在真实噪声环境中，噪声源往往是多样的。假设噪声是由多个不同概率分布的随机变量加合而成，并且每一个随机变量都是独立的，那么根据中心极限定理^[9]，噪声分布随着噪声源数量的上升趋近于高斯分布^[10]。虽然高斯分布能有效解决小噪声但是对于大噪声过于敏感，而社交图像(见文献[2])属于大噪声。柯西分布的重尾特性可以有效地建模大噪声，并且柯西分布在峰值处平滑，使得其对密集噪声也有很好的效果^[27]。所以本文选用柯西分布来拟合标签噪声。
基于上述工作，本文提出在非负低秩矩阵模型的基础上，基于噪声稀疏性原则，利用柯西分布来对噪声建模(见图 1)。选择Rsenet50网络提取更深层次的视觉特征，为了更好地联系视觉特征和标签空间，还利用CNN网络来训练图像和理想标签矩阵模型，并在训练模型前，对CNN网络预训练来减少预测标签和理想标签间的差异。
2 柯西分布模型在本节中，将介绍基于噪声柯西分布的弱监督非负低秩深度学习模型(见图 1)，着重阐述本文研究目的，并对优化函数进行推导。

图 1 基于噪声柯西分布的社交网络图像标注和重标注模型图 Fig. 1 Illustration of the model for social image tag refinement and annotation based on noise Cauchy distribution

图选项

2.1 研究目的对于图像标签标注问题，最重要的是要揭示视觉内容和语义标签的内在联系。而对于社交网络图像而言，用户通常会提供一些标签用来标注图像。而这些标签形成的语义空间是可以由真实标签空间中的显式标签子集来近似，而且用户倾向于选择语义相关的标签来对图像进行标记。因此，社交网络图像的标签-图像关联矩阵本质是低秩的。此外，标注过程中不常出现错误，所以噪声矩阵是稀疏的，这是符合常理的。因此，本文采用非负低秩模型来解决社交图像标注中的标签噪声优化问题。本文选择对各种噪声更加鲁棒的柯西概率分布拟合噪声，由此建立基于噪声柯西分布的弱监督非负低秩模型。图像的视觉特征对图像-标签学习至关重要，因此本文选择Resnet50网络来提取深层视觉特征。另外，尽管观测标签矩阵仍然存在很多不相关以及错误的标签，图像的视觉特征和标签仍然是紧密联系的，所以本文采用CNN框架来学习图像和标签之间的映射关系。
2.2 模型构建定义A为矩阵，A_ij表示矩阵A的第(i，j)元素，矩阵A的核范数为‖A‖_*，矩阵A的l₁范数为

，而矩阵A的F范数为

。对于图像标注问题，图像数据集包括n幅图像和m个用户标签，每幅图像对应若干个标签构成二值矩阵F，即观测标签矩阵。定义理想标签矩阵为Y，特征矩阵为X，由数据集每幅图像对应的特征向量x_i构成。在低秩框架下，最重要的是优化噪声标签矩阵E、理想标签矩阵Y以及标签预测对应的损失函数。观测标签矩阵由理想标签矩阵和噪声标签矩阵组成：

(1)

根据文献[28]中的工作，用rank(Y)(Y的秩)来衡量理想标签矩阵Y的低秩性，S(E)(由不同的噪声优化目标决定)来衡量噪声标签矩阵的稀疏性, loss(Y, W_g(X))来衡量预测标签的损失，W_g(X)为CNN网络预测标签，最后为了防止过拟合问题，再引入正则化项Ω(Θ)，并且引入超参数λ₁、λ₂以及λ₃来构成模型的优化函数：

(2)

对于上述优化函数，利用‖Y‖_*来衡量Y的秩，则rank(Y)=‖Y‖_*，而对于S(E)，假设噪声标签矩阵E符合柯西分布，其中b为分布的尺度参数：

(3)

则对于S(E)的优化为

(4)

对于预测的标签矩阵W_g(X)采用loss(x, y)=

的损失函数进行误差分析，则最后优化目标为

(5)

根据文献[3, 28]，对上述优化问题进行优化，引入2个辅助因子Y₁、Y₂分离优化问题，Y₁用来分析低秩性，Y₂辅助E分析稀疏性。得到以下优化问题：

(6)

再根据非精确增广拉格朗日方法^[28]，对应于式(6)中的Y₁和Y₂，引入Z₁和Z₂到增广拉格朗日方程为

(7)

式中：ζ为增广拉格朗日方程符号；η为梯度下降的学习率。
通过对上述优化函数求解偏导，得到Y、Y₁、Y₂的偏导：

得到Y、Y₁和Y₂的更新为

(8)

(9)

(10)

式(9)中：定义矩阵A=UΛV^T，Λ为矩阵A SVD分解的奇异值矩阵。传统软阀值算法定义为：soft(A，δ)=sign(A)max(｜A｜-δ，0)，则定义计算软阀值算子奇异值的方法为Γ_δ=U_soft(Λ，δ)V^T，δ为阀值偏差值。式(10)中为更改阀值基准值重定义soft(A，δ，τ)=sign(A)max(｜A｜-δ，τ)，τ表示基准值。
综上所述，首先提出了优化目标函数(式(2))，并对3部分优化目标引入不同的损失函数。根据文献[28]，通过非精确增广拉格朗日方法来求解目标函数(式(6))，并对目标函数中的变量求解偏导数，得到变量Y、Y₁和Y₂的迭代过程，而神经网络参数W则根据CNN网络进行更新。根据文献[28]，非精确增广拉格朗日方法可以有效地保证该算法的收敛性。
本文通过输入预测标签矩阵W_g(X)，经过上述的优化过程，可以计算得到理想的标签矩阵Y。再将视觉特征X和理想的标签矩阵Y输入到CNN网络中，学习图像-标签关系，并得到新的观测标签矩阵W_g(X)，不断迭代上述过程直至收敛。再利用训练得到图像-标签关系模型，对已有图像重标注，并对新图像标注。下面介绍本文CDNL模型的算法流程，CDNL模型对数据集MIRFlickr采用4层网络结构，对NUS-WIDE采用3层网络结构，但这不会影响优化模块的结果。
算法1?? CDNL算法。
输入：深层视觉特征X以及观测标签矩阵F。
预训练：将X和F输入CNN网络，设置Sigmoid函数为激活函数，二分类交叉熵函数(Binary Cross Entropy)为损失函数，学习率为0.000 1，指数衰减率为(0.9, 0.999)，预先训练CNN。
准备：载入预训练CNN，随机正态初始化Y₁、Y₂、Z₁、Z₂。
训练: repeat:

根据式(8)~式(10)更新Y、Y₁和Y₂

CNN模型更新W_g(X)(参数同上)
Until模型收敛
输出：理想标签矩阵Y，模型参数W，评价数据。
使用：利用训练的模型，来重标注训练集，并对测试集中新图片进行标注。
3 实验本节将会详细介绍本文方法的实验流程，并且对实验结果进行分析。
实验主要基于2个公开的社交网络图像数据集：MIRFlickr和NUS-WIDE，这2个数据集都在社交网络图像理解和检索任务上得到广泛的应用。MIRFlickr^[29]数据集有25 000幅图像、386个用户标签，去掉出现少于50次的标签，得到457个实验标签，另外有18个真实有效标注用于评价性能。NUS-WIDE^[30]数据集有269 648幅图像和5 018个用户标签，挑选出现频率最高的1 000个标签作为实验标签，160 000幅图像作为实验数据集。另外有81个真实有效标注用于评价。实验中所用数据集的信息如表 1所示。
表 1 MIRFlickr和NUS-WIDE实验数据 Table 1 Experimental data of MIRFlickr and NUS-WIDE

参数	MIRFlickr	NUS-WIDE
图片数量	25 000	269 627??
标签数量	457	1 000??
真实标签数量	18	81??
每次训练集图片数量	12 500	160 000??

表选项

为了验证模型的稳定性，从数据集中随机抽取图像作为训练集，并用剩下的图像作为测试集，并且重复实验5次。对于MIRFlickr数据集每次抽取12 500幅图像作为训练集，剩下12 500幅图像作为测试集。对于NUS-WIDE数据集每次抽取160 000幅图像作为训练集，剩余图像作为测试集。
由于传统方法只能提取图像的底层视觉信息。为了得到图像更深的视觉内容，实验采用Resnet50残差网络来提取2 048维的图像特征。为了使预测标签更接近于理想标签，训练开始时会将深层视觉特征X以及观测标签矩阵F输入CNN来预先训练网络。这样能够更有效地训练CDNL模型。进而，不断优化理想标签矩阵Y，和网络模型参数W。最后利用已训练好的模型来重标注训练集，并标注测试集新图像。
本文对于目标函数中的超参数λ₁、λ₂以及λ₃，从{0.001, 0.01, 0.05, 0.1, 0.5, 1, 5, 10, 100, 1 000}中依次选择实验，对比实验结果。其中MIRFlickr数据集上λ₁为0.1、λ₂为0.2以及λ₃为0.000 1，NUS-WIDE数据集上λ₁为0.7、λ₂为0.5以及λ₃为0.000 1时最优。
本文采用MicroAUC、MacroAUC以及平均精度均值(mAP)这3个指标来对模型进行评价。
将CDNL模型和前人的工作进行对比，包括LSCCA^[7]、CCA-CNN^[31]、TCCA^[18]、DMF^[32]、MPMF^[33]、DNMF^[34]、WDMF^[3]、WDNL^[5]、DCE^[23]等模型，其中LSCCA和TCCA属于传统方法，CCA-CNN属于利用深度学习方法学习图像-标签关系，DMF、MPMF以及DNMF属于矩阵分解方法，而WDMF、WDNL和DCE均在标签矩阵分解的基础上学习了图像视觉空间和标签语义空间的关系。
本文提出的CDNL模型将从图像重标注和新图像标注2个方面进行评价。从图 2可以看出，CDNL模型在MIRFlickr数据集上效果显著，远高于当前主流方法。从图 3可以看出，CDNL模型在NUS-WIDE数据集上效果也有提升，仅仅稍差于DCE。而从表 2和表 3可以发现，本文提出的CDNL模型在标签重标注和新图像标注上的平均MicroAUC和MacroAUC均提升明显，相较于其他方法在MIRFlickrovt数据集上有显著优势，在NUS-WIDE数据集上也有进步。其中相较于LSCCA、TCCA等传统方法，矩阵分解(如DMF、MPMF、DNMF)有效地提升了标签准确率，但是由于没有考虑图像特征和标签语义的关系，效果明显不如WDMF、WDNL和DCE，而本文方法在引入噪声柯西分布拟合后，对比WDMF和WDNL方法在2个数据集上的效果均有所提升。提升幅度有大有小，这是由于数据集噪声分布是未知的，高斯分布或柯西分布均没有办法完全拟合噪声分布，但是柯西分布相对高斯分布依然有一定优势。由此可以看出，柯西分布对噪声的拟合、Resnet50对图像深层语义内容的提取以及CNN的训练都是卓有成效的，CDNL模型对比其他主流方法有很大的提升。

图 2 MIRFlickr数据集的重标注mAP Fig. 2 Experimental results(mAP) on the MIRFlickr for image tag refinement

图选项

图 3 NUS-WIDE数据集的重标注mAP Fig. 3 Experimental results(mAP) on the NUS-WIDE for image tag refinement

图选项

表 2 在MIRFlickr和NUS-WIDE数据集进行标签重标注的实验结果(平均MicroAUC/MacroAUC±标准偏差值) Table 2 Experimental results(mean microauc/macroauc±standard deviation) on the MIRFlickr and NUS-WIDE for image tag refinement

方法	MIRFlickr		NUS-WIDE
方法	MicroAUC	MacroAUC	MicroAUC	MacroAUC
Baseline	0.558	0.587	0.623	0.754
LSCCA	0.594±0.006	0.586±0.004	0.732±0.002	0.632±0.003
CCA-CNN	0.644±0.006	0.631±0.003	0.675±0.005	0.743±0.007
TCCA	0.643±0.006	0.632±0.004	0.768±0.007	0.675±0.008
DMF	0.639±0.002	0.628±0.002	0.751±0.005	0.739±0.004
MPMF	0.634±0.004	0.607±0.002	0.782±0.002	0.681±0.005
DNMF	0.624±0.005	0.621±0.006	0.759±0.009	0.665±0.003
WDMF	0.704±0.005	0.678±0.006	0.805±0.004	0.775±0.006
WDNL	0.685±0.003	0.671±0.003	0.789±0.006	0.762±0.006
DCE	0.732±0.003	0.718±0.004	0.825±0.004	0.797±0.003
本文	0.745±0.004	0.775±0.006	0.774±0.009	0.831±0.005

表选项

表 3 在MIRFlickr和NUS-WIDE数据集进行新图像标签标注的实验结果(平均MicroAUC/MacroAUC±标准偏差值) Table 3 Experimental results(mean microauc/macroauc±standard deviation) on the MIRFlickr and NUS-WIDE for image tag assignment

方法	MIRFlickr		NUS-WIDE
方法	MicroAUC	MacroAUC	MicroAUC	MacroAUC
LSCCA	0.585±0.006	0.562±0.004	0.681±0.002	0.599±0.003
CCA-CNN	0.642±0.005	0.627±0.002	0.617±0.004	0.641±0.003
TCCA	0.610±0.005	0.597±0.006	0.727±0.009	0.625±0.006
DMF	0.635±0.002	0.623±0.003	0.737±0.004	0.632±0.004
MPMF	0.617±0.004	0.596±0.002	0.742±0.002	0.635±0.005
DNMF	0.619±0.005	0.601±0.006	0.699±0.009	0.618±0.003
WDMF	0.661±0.007	0.646±0.004	0.768±0.005	0.675±0.007
WDNL	0.665±0.004	0.652±0.005	0.758±0.004	0.671±0.007
DCE	0.693±0.005	0.667±0.004	0.787±0.006	0.746±0.004
本文	0.715±0.006	0.735±0.005	0.761±0.008	0.794±0.007

表选项

而对于噪声柯西分布的具体形式，本实验也做了相关对比工作。在柯西分布中，尺度参数b代表了分布中最大值一半处的宽度，并代表着噪声分布的状态，通过调整b值分析数据集中噪声的分布特征和状态，在2个数据集上的实验结果如表 4所示。可以看到，MIRFlickr数据集更加拟合尺度参数b为0.8的柯西分布，而NUS-WIDE数据集更加拟合尺度参数b为0.6的柯西分布。
从表 4的实验数据可以看出，提出的模型在MIRFlickr数据集上效果远好于前人的工作，并且在b为0.8的效果最为优异，说明MIRFlickr数据集的噪声非常符合柯西分布，且基于噪声柯西分布的深度学习模型是十分有效的。而在NUS-WIDE数据集上，本文模型的结果稍逊于DCE方法，但是也有所提升，并在b为0.6时得到最好效果，说明NUS-WIDE噪声分布不是十分拟合柯西分布，但是由于柯西分布对大多数噪声的适用性，仍然很好地提升了模型的鲁棒性。
表 4 不同尺度参数b对数据集mAP性能的影响 Table 4 Experimental results(mAP) on the MIRFlickr and NUS-WIDE for different scale parameter b

b	mAP
b	MIRFlickr	NUS-WIDE
0.2	0.417	0.401
0.4	0.423	0.415
0.6	0.425	0.423
0.8	0.452	0.403

表选项

4 结束语本文提出了一种基于噪声柯西分布的弱监督社交网络图像标签修正和标注方法，并利用深度网络学习视觉特征和标签语义之间的关系。本文提出的框架不仅可以对训练图像的用户标签进行修正，同时最后的深度学习模块还可以用来对新图像进行标签标注。在2个公开数据集上的实验结果验证了本文方法的有效性，并且利用不同的尺度参数来对噪声进行拟合，初步得到了2个数据集的噪声分布情况。从结果上来说，CDNL模型对MIRFlickr数据集噪声拟合非常好，表现好于主流方法，而对NUS-WIDE数据集噪声拟合程度稍差于MIRFlickr，但也取得非常不错的效果。
在后续的工作中，可以利用更多的分布模型来更好地拟合噪声，尝试利用更为先进的网络模型，来揭示图片深层特征和标签语义的内在关系。

参考文献

[1]	KENNEDY L S, CHANG S F, KOZINTSEV I V. To search or to label? Predicting the performance of search-based automatic image classifiers[C]//Proceedings of the 8th ACM International Conference on Multimedia Information Retrieval. New York: ACM Press, 2006: 249-258.

[2]	CHEN M, ZHENG A, WEINBERGER K. Fast image tagging[C]//International Conference on Machine Learning. New York: ACM Press, 2013: 1274-1282.

[3]	LI Z, TANG J. Weakly supervised deep matrix factorization for social image understanding[J]. IEEE Transactions on Image Processing, 2016, 26(1): 276-288.

[4]	ZHU G, YAN S, MA Y. Image tag refinement towards low-rank, content-tag prior and error sparsity[C]//Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 461-470.

[5]	LI Z, TANG J. Weakly-supervised deep nonnegative low-rank model for social image tag refinement and assignment[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 2017: 4154-4160.

[6]	LI X, SNOEK C G M, WORRING M. Learning social tag relevance by neighbor voting[J]. IEEE Transactions on Multimedia, 2009, 11(7): 1310-1322. DOI:10.1109/TMM.2009.2030598

[7]	TANG J, SHU X, QI G J, et al. Tri-clustered tensor completion for social-aware image tag refinement[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(8): 1662-1674.

[8]	MA H C, LIU I, KING I, et al. Probabilistic factor models for web site recommendation[C]//Proceedings of the 34th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2011: 265-274.

[9]	PARK S, SERPEDIN E, QARAQE K. Gaussian assumption: The least favorable but the most useful lecture notes[J]. IEEE Signal Processing Magazine, 2013, 30(3): 183-186. DOI:10.1109/MSP.2013.2238691

[10]	ABDI H, WILLIAMS L J. Principal component analysis[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2010, 2(4): 433-459. DOI:10.1002/wics.101

[11]	LIU D, HUA X S, WANG M, et al. Image retagging[C]//Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 491-500.

[12]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778.

[13]	DOLAN-GAVITT B, LEEK T, ZHIVICH M, et al. Virtuoso: Narrowing the semantic gap in virtual machine introspection[C]//2011 IEEE Symposium on Security and Privacy. Piscataway: IEEE Press, 2011: 297-312.

[14]	BARNARD K, DUYGULU P, FORSYTH D, et al. Matching words and pictures[J]. Journal of Machine Learning Research, 2003, 3(2): 1107-1135.

[15]	MAKADIA A, PAVLOVIC V, KUMAR S. Baselines for image annotation[J]. International Journal of Computer Vision, 2010, 90(1): 88-105. DOI:10.1007/s11263-010-0338-6

[16]	WU L, JIN R, JAIN A K. Tag completion for image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 35(3): 716-727.

[17]	ZHAO R, GROSKY W I. Narrowing the semantic gap-improved text-based web document retrieval using visual features[J]. IEEE Transactions on Multimedia, 2002, 4(2): 189-200. DOI:10.1109/TMM.2002.1017733

[18]	FENG Z, FENG S, JIN R, et al. Image tag completion by noisy matrix recovery[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2014: 424-438.

[19]	BENGIO Y. Learning deep architectures for AI[J]. Foundations and Trends in Machine Learning, 2009, 2(1): 1-127. DOI:10.1561/2200000006

[20]	MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations[C]//Proceedings of the 5th ACM International Conference on Multimedia Information Retrieval. New York: ACM Press, 2015: 603-606.

[21]	ZHANG J, WU Q, ZHANG J, et al. Kill two birds with one stone: Weakly-supervised neural network for image annotation and tag refinement[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, 2018: 234-257.

[22]	LI Z, TANG J, ZHANG L, et al. Weakly-supervised semantic guided hashing for social image retrieval[J]. International Journal of Computer Vision, 2020, 128: 2265-2278. DOI:10.1007/s11263-020-01331-0

[23]	LI Z, TANG J, MEI T. Deep collaborative embedding for social image understanding[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(9): 2070-2083. DOI:10.1109/TPAMI.2018.2852750

[24]	BRIAN C, BO W, ALIREZA Z, et al. General partial label learning via dual bipartite graph autoencoder[EB/OL]. [2020-07-12]. https://arxiv.org/abs/2001.01290.

[25]	YOU R, GUO Z, CUI L, et al. Cross-modality attention with semantic graph embedding for multi-label classification[C]//Proceedings of the Thirty-Forth AAAI Conference on Artificial Intelligence, 2020: 12709-12716.

[26]	LI Z, TANG J. Weakly supervised deep metric learning for community-contributed image retrieval[J]. IEEE Transactions on Multimedia, 2015, 17(11): 1989-1999. DOI:10.1109/TMM.2015.2477035

[27]	DU X, LIU Q, LI Z, et al. Cauchy matrix factorization for tag-based social image retrieval[J]. IEEE Access, 2019, 7: 132302-132310. DOI:10.1109/ACCESS.2019.2940598

[28]	LIN Z, CHEN M, MA Y. The augmented Lagrange multiplier method for exact recovery of corrupted low-rank matrices[EB/OL]. [2020-08-20]. https://arxiv.org/abs/1009.5055.

[29]	HUISKES M J, LEW M S. The MIR flickr retrieval evaluation[C]//Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. New York: ACM Press, 2008: 39-43.

[30]	TANG J, SHU X, LI Z, et al. Generalized deep transfer networks for knowledge propagation in heterogeneous domains[J]. ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM), 2016, 12(4s): 1-22.

[31]	MURTHY V N, MAJI S, MANMATHA R. Automatic image annotation using deep learning representations[C]//Proceedings of the 5th ACM International Conference on Multimedia Information Retrieval. New York: ACM Press, 2015: 603-606.

[32]	GONG Y, JIA Y, LEUNG T, et al. Deep convolutional ranking for multi label image annotation[EB/OL]. [2020-08-20]. https://arxiv.org/abs/1312.4894

[33]	VERMA Y, JAWAHAR C V. Image annotation using metric learning in semantic neighbourhoods[C]//Proceedings of the European Conference on Computer Vision. Berlin: Springer, 2012: 836-849.

[34]	TRIGEORGIS G, BOUSMALIS K, ZAFEIRIOU S, et al. A deep matrix factorization method for learning attribute representations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(3): 417-429.