

1. 大连民族大学 大数据应用技术国家民委重点实验室, 大连 116600;
2. 北京理工大学 计算机科学与技术学院, 北京 100081
收稿日期:2021-07-22
基金项目:国家自然科学基金青年项目(61602085)
作者简介:逯波(1982—), 男, 讲师
通讯作者:段晓东, 教授, E-mail:lubo@dlnu.edu.cn
摘要:在跨模态媒体检索任务中, 如何最大化保持异构媒体数据映射后的语义关联成为跨模态Hash的关键问题, 该文提出一种基于自监督学习的深度语义保持Hash网络框架用于生成紧凑的Hash编码。首先, 针对图像和文本数据, 分别训练2个单一模态的深度Hash网络并生成高层语义特征及各自的Hash编码。同时, 利用跨模态注意力机制度量不同模态高层语义特征之间的相似性, 最大化异构媒体数据间的局部语义关联性。其次, 利用训练数据的多标签语义信息建立深度语义Hash网络, 并以自监督对抗学习的方式同时监督指导2个单一模态的深度Hash网络的训练过程, 从而在全局角度保持不同模态数据之间的语义关联, 提高生成Hash编码的区分能力。最后, 在3个被广泛使用的大规模多模态媒体数据集上验证了提出框架的有效性。
关键词:深度跨模态Hash对抗学习语义Hash跨模态注意力机制
Self-supervised deep semantics-preserving Hashing for cross-modal retrieval
LU Bo1, DUAN Xiaodong1


1. SECA Key Laboratory of Big Data Applied Technology, Dalian Minzu University, Dalian 116600, China;
2. School of Computer and Technology, Beijing Institute of Technology, Beijing 100081, China
Abstract: The key issue for cross-modal retrieval using cross-modal Hashing is how to maximize the consistency of the semantic relationship for heterogeneous media data. This paper presents a self-supervised deep semantics-preserving hashing network (UDSPH) that generates compact Hash codes using an end-to-end architecture. Two modality-specific hashing networks are first trained for generating the Hash codes and high-level features. The semantic relationship between different modalities is then measured using cross-modal attention mechanisms that maximize preservation of the local semantic correlation. Multi-label semantic information in the training data is used to simultaneously guide the training of two modality-specific Hashing networks by self-supervised adversarial learning. This constructs a deep semantic hashing network that preserves the semantic association in the global view and improves the discriminative capability of the generated Hash codes. Tests on three widely-used benchmark datasets verify the effectiveness of this method.
Key words: deep cross-modal Hashingadversarial learningsemantic Hashingcross-modal attention
随着多媒体和网络技术的快速发展,海量的异构多模态媒体数据(如图片、文本、视频和音频等)呈指数级爆炸式的增长。为了更好地响应用户日益增长的多样化查询需求,跨模态媒体检索引起了相关研究领域越来越多的关注,并逐渐成为热点研究课题[1]。由于异构媒体数据具有高维度特征和存储代价大等特点,基于Hash技术的跨模态检索方法被提出用于实现高效地检索任务。通常,这些方法将高维度的多模态数据映射成紧凑的二进制Hash编码,使得相似的原始多模态数据实例具有相似的二进制Hash编码,如图 1所示。主要有2个优点:1) 相似模态数据实例映射之后的Hash码可以在统一的Hamming空间中进行有效地度量;2) 以bit为单位的二进制Hash码具有较低的存储成本和计算代价。然而,不同模态数据在低层特征上的异构性和高层语义特征上的“语义鸿沟”仍然是跨模态检索领域中极具挑战性的问题。
![]() |
图 1 基于Hash方法的跨模态检索示例 |
图选项 |
为了解决不同模态之间的异构性问题,跨模态Hash方法被提出[2],根据是否使用标签语义信息,跨模态Hash方法的训练方式可以大致分为2类:无监督学习和有监督学习。无监督跨模态Hash方法旨在利用不带标签的训练数据学习从原始特征空间到Hamming空间的映射函数,并保持数据映射前后的特征分布。Song等[3]提出了一种模态间Hash网络(inter-media Hashing, IMH),通过学习一个共同的Hamming空间,以此来保持不同模态间数据的特征表达一致性。Ding等[4]利用基于潜在因子模型的集合矩阵特征分解方法来学习Hash函数(collective matrix factorization Hashing, CMFH),并将多模态媒体对象实例映射为一个统一的Hash编码。相比于无监督学习模式,有监督的跨模态Hash方法由于使用标签和相关联的语义信息,因此通常能够得到更好的跨模态检索性能。Bronstein等[5]提出跨模态相似性敏感Hash(cross-modal similarity sensitive Hashing,CMSSH),利用激励的方式将Hash学习看作一个分类任务,通过最小化原始空间相似性和映射后的Hash编码之间的距离,逐步按位迭代优化每一位的Hash编码。Wu等[6]提出量化关联Hash(quantized correlation Hashing,QCH),同时学习不同模态数据的相似度和量化误差。然而,传统的基于有监督的跨模态Hash方法在学习Hash码时仅利用手工标注的标签信息来训练浅层神经网络,这极大程度上限制了所生成Hash码的区分能力以及Hash函数的学习能力。因此,这些方法无法有效地捕获不同模态媒体数据间的语义关联并以此解决语义鸿沟问题,即在统一的Hamming空间中,映射后的Hash编码无法有效地保持异构模态数据之间原始的语义相关性。
近几年,由于深度学习方法[7]在自然语言理解、图像分类、物体检测、语音识别等领域的成功应用,一些跨模态Hash方法开始使用深度学习技术来获取不同模态数据实例之间有效和准确的非线性关联和特征表达。深度跨模态Hash方法[8]通过训练端到端的深层网络结构,进行特征学习和特征选择来得到更加准确的特征表达,同时在深层网络的最后一层学习相应的Hash编码。Jiang等[9]提出深度跨模态Hash框架(deep cross-modal Hashing,DCMH),使用负对数似然估计损失函数来保持跨模态相似性。Wang等[10]提出基于对抗学习的跨模态检索方法(adversarial cross-modal retrieval, ACMR),使用对抗学习来训练分类任务,从而提高不同模态数据之间的区分能力。尽管深度跨模态Hash方法已经在跨模态数据集上进行了验证并取得了有效的结果,但仍存在一个主要问题,大多数的深度跨模态Hash方法直接使用模态数据的单一语义标签进行训练[11],并仅使用不同模态成对数据的相似矩阵作为学习二进制Hash编码的限制条件,导致多模态数据的丰富语义关联信息无法被有效捕获用于生成Hash编码和学习Hash函数。事实上,成对的多模态数据实例通常都会有多个语义标签,例如在被广泛使用的多模态媒体数据集中,通常每个图像数据都被分配了多个类别标签,这些语义信息有助于提高不同模态数据间描述语义相关性的准确性。同时能够使生成的二进制Hash编码能够很好地保持原始空间中的语义相关性和特征表达一致性。
针对上述问题,本文提出一种基于自监督学习的深度语义保持Hash网络用于跨模态媒体检索任务。可用于端到端训练的深度混合模型框架,主要包括3个子学习网络,图像模态Hash网络、文本模态Hash网络以及深度语义Hash网络。首先,利用成对的多模态媒体数据,如图像和文本,分别训练2个相应的单一模态深度Hash网络,得到相应模态媒体数据映射后所生成的Hash编码。同时,针对2个单一模态深度Hash网络所生成的高层语义特征,利用跨模态注意力机制度量其之间的语义相关性,从而使图像—文本对之间的局部语义关联性保持最大化。其次,利用多模态媒体数据集中的多标签语义信息,构建深度语义Hash网络,并以对抗学习的方式同时监督指导两个单一模态的深度Hash网络的训练和学习过程,以此保证不同模态媒体数据经过训练学习所得到的Hash编码,能够从全局角度最大化保持不同模态之间的语义相关性和特征空间分布的一致性。
1 问题定义本文提出了一种基于自监督的深度语义Hash网络框架,通过端到端方式进行训练和学习,可以得到紧凑的二进制Hash编码,同时Hash编码能够最大化保持原始语义空间的相似性以及特征表达的一致性,提出的框架如图 2所示。特别地,提出的框架可以扩展到更多模态数据上使用,但本文中仅关注图像和文本2种模态数据用于研究和实验。
![]() |
图 2 基于自监督的深度语义保持Hash网络框架 |
图选项 |
给定一个包含n个训练样本的跨模态媒体数据集
给定上面定义的
同时,2个单一模态Hash网络中分别学习到的Hash函数定义为
$H^{x, y}=f^{x, y}\left(x, y, l, \omega^{x, y}\right).$ | (1) |
对应于深度语义Hash网络中学习到的Hash函数定义为
$H^{l}=f^{l}\left(l, \omega^{l}\right): \mathbb{R}^{d_{l}} \mapsto\{-1, 1\}^{K}.$ | (2) |
最终,通过sign函数在Hx, y, l上进行非线性转换,可以得到生成的二进制Hash编码Bx, y, l定义为
$B^{x, y, l}=\operatorname{sign}\left(H^{x, y, l}\right) \in\{-1, 1\}^{K}.$ | (3) |
给定图像模态数据X和文本模态数据Y,2个单一模态Hash网络中的损失函数定义为
$\begin{gathered}\min _{B^{x, y}, \alpha} L^{x, y}=\alpha_{1} J_{1}+\alpha_{2} J_{2}+\alpha_{3} J_{3}, \\J_{1}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\nabla}_{i j}^{x, y}-\log \left(1+\mathrm{e}^{\mathit{\nabla}_{i j}^{x, y}}\right)\right), \\J_{2}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\Lambda }_{i j}^{x, y}-\log \left(1+\mathrm{e}^{ \mathit{\Lambda }_{i j}^{x, y}}\right)\right), \\J_{3}=\left\|H^{x, y}-B^{x, y}\right\|^{2}.\end{gathered}$ | (4) |
${\mathit{\nabla}} _{ij}^{x, y} = \frac{1}{2}{\left( {U_{*i}^l} \right)^{\rm{T}}}\left( {U_{*j}^{x, y}} \right), \quad \mathit{\Lambda }_{ij}^{x, y} = \frac{1}{2}{\left( {H_{*i}^l} \right)^{\rm{T}}}\left( {H_{*j}^{x, y}} \right), $ |
针对深度语义Hash网络,损失函数定义为
$\begin{gathered}\min _{B^{l}, \beta} L^{l}=\alpha_{1} J_{1}+\alpha_{2} J_{2}+\alpha_{3} J_{3}, \\J_{1}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\nabla}_{i j}^{l}-\log \left(1+\mathrm{e}^{\mathit{\nabla}_{i j}^{l}}\right)\right), \\J_{2}=-\sum\limits_{i, j=1}^{n}\left(S_{i j} \mathit{\Lambda }_{i j}^{l}-\log \left(1+\mathrm{e}^{ \mathit{\Lambda }_{i j}^{l}}\right)\right), \\J_{3}=\left\|H^{l}-B^{l}\right\|^{2} .\end{gathered}$ | (5) |
$\mathit{\nabla} _{i j}^{l}=\frac{1}{2}\left(U_{* i}^{l}\right)^{\mathrm{T}}\left(U_{* j}^{l}\right), \quad \mathit{\Lambda }_{i j}^{l}=\frac{1}{2}\left(H_{* i}^{l}\right)^{\mathrm{T}}\left(H_{* j}^{l}\right), $ |
2.2 自监督对抗学习根据式(5),将语义Hash网络所得到的U*il和H*il作为自监督信息,用来指导图像模态Hash网络和文本模态Hash网络的训练和学习,从而期望在全局角度最大化保持2种模态数据之间的语义相关性。然而,由于不同模态数据在低层特征向量上的分布具有不一致性,导致难以生成最优化的统一Hash编码。为了进一步提高跨模态媒体检索的性能,受到生成对抗网络的启发,利用对抗学习的方式来解决多模态的分布不一致性问题。
首先,分别为图像模态和文本模态构建2个判别器。对于图像模态判别器,输入是图像模态Hash网络所生成的语义特征Ux和语义Hash网络生成的语义特征Ul,类似地,文本模态判别器的输入是Uy和Ul,2个判别器的输出为0或1。具体地,基于生成对抗网络的博弈思想,将由真实标签生成的语义特征所对应的模态标签设置为1,2个单一模态Hash网络生成的语义特征对应的模态标签设置为0。当训练模型时,定义判别器的对抗损失函数为
$\begin{gathered}\min _{\eta^{x, y, l}} L_{\mathrm{D}}^{x, y, l}=-\frac{1}{2 n}\left(\sum\limits_{i=1}^{2 n} \log D\left(z^{x, y, l}\right)+\right. \\\left.\sum\limits_{i=1}^{2 n} \log \left(1-D\left(\hat{z}^{x, y, l}\right)\right)\right) .\end{gathered}$ | (6) |
2.3 跨模态注意力机制由于不同模态的相似媒体数据间具有很强的语义相似度,为了更加细粒度的挖掘这种语义关联性,并进一步提高图像模态和文本模态Hash网络所生成Hash编码的区分能力,引入跨模态注意力机制[15],从而最大化2种模态数据间的局部语义关联性。
给定
$s_{i j}=\frac{\left(\boldsymbol{u}_{i}^{x}\right)^{\mathrm{T}} \boldsymbol{u}_{j}^{y}}{\left\|\boldsymbol{u}_{i}^{x}\right\||\cdot| \boldsymbol{u}_{j}^{y} \mid}, \quad i \in[1, m], j \in[1, n] .$ | (7) |
$\mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_j^y = \sum\limits_{j = 1}^n {{\mu _{ij}}} \mathit{\boldsymbol{u}}_j^y,$ |
$S_{X 2 Y}\left(\boldsymbol{u}_{i}^{x}, \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{j}^{y}\right)=\frac{1}{m} \sum\limits_{i=1}^{m} \frac{\boldsymbol{u}_{i}^{x} \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{j}^{y}}{\left\|\left|\boldsymbol{u}_{i}^{x}\right| \cdot\left| \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{j}^{y}\right|\right\|}.$ | (8) |
$S_{X 2 Y}\left(\boldsymbol{u}_{j}^{y}, \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{i}^{x}\right)=\frac{1}{n} \sum\limits_{j=1}^{n} \frac{\boldsymbol{u}_{j}^{y} \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{i}^{x}}{\left\|\boldsymbol{u}_{j}^{y}\right\| \cdot\left\| \mathit{\boldsymbol{ \boldsymbol{\varGamma} }}_{i}^{x}\right\|} .$ | (9) |
$\min L_{\text {tri }}(X, Y)=\sum\limits_{n=1}^{N} L_{\text {tri }}^{X}\left(X_{n}, Y_{n}\right)+L_{\text {tri }}^{Y}\left(X_{n}, Y_{n}\right).$ | (10) |
$\text { Loss }=L^{x, y}+L^{l}+L_{\mathrm{D}}+L_{\mathrm{tri}} .$ | (11) |
$L^{l} \rightarrow L^{x, y} \rightarrow L_{\mathrm{D}} \rightarrow L_{\text {tri }} \rightarrow L^{x, y}$ |
当整个模型以端到端的方式训练完毕并收敛,可将查询数据q(图像或文本)作为模型输入并最终根据式(3)得到映射后的Hash编码Bqx, y,即
3 实验与结果本文提出的方法在3个广泛使用的数据集上验证了有效性,提出的框架通过TensorFlow进行深度学习网络的训练和实现,所有实验在装配有2个NVIDIA TESLA V100 32G的深度学习机上运行。
3.1 数据集及评估方法实验过程中所使用的数据集包括:
1) MIRFLICKR-25K[16]数据集包含从社交图片网站Flickr收集的25 000个数据,所有数据共分为24个类别标签。实验中,共挑选18 020个数据,其中11 000个数据用于训练模型,2 000个数据作为测试集,其余数据用作跨模态检索数据集。该数据集中的对应的文本在实验中抽取为1 200维的嵌入向量。
2) NUS-WIDE[17]数据集包括26 800张图片数据,共81个真实类别标签,实验中选取了常用的25个类别标签,以及对应的18 000个数据,其中10 500个数据作为训练集,2 200个数据作为测试集,其余数据作为跨模态检索数据集。
3) MS-COCO[18]数据集包括80 000个训练数据和40 000个验证数据。实验选取了其中12 000个数据作为训练集,5 000个数据作为测试集,对应的文本抽取为2 000维的嵌入向量。
此外,使用Hamming排序和Hash查找验证提出方法在跨模态检索任务上的性能,评估准则使用平均精度均值(mean average precision, MAP@N),查准率—查全率(precision-recall)。
3.2 性能评估为了评估本文提出方法在跨模态检索任务上的性能,提出的方法与5种当前主流的跨模态Hash方法进行了对比,这些方法包括:CMSSH、STMH[19]、SePH[20]、SCM[21]以及DCMH。其中前4种都是只使用了浅层神经网络结构的跨模态Hash方法,而DCMH方法是基于深度学习网络的跨模态Hash方法。鉴于公平对等性,与前4种方法比较时,针对图片数据的处理,为所有使用浅层神经网络结构的方法统一提取了深度CNNF特征。本文方法与其他方法基于不同Hash编码长度在3个数据集上测试了平均精度均值,对比结果如表 1所示。特别地,针对2类检索任务,利用图像查询文本数据和利用文本查询图像数据分别用I
表 1 3个数据集上测试不同Hash编码长度的平均精度均值评估
检索任务 | 对比方法 | MIRFLICKR25K | NUS-WIDE | MS-COCO | ||||||||
16 bits | 32 bits | 64 bits | 16 bits | 32 bits | 64 bits | 16 bits | 32 bits | 64 bits | ||||
I | SCM | 0.545 | 0.556 | 0.557 | 0.438 | 0.434 | 0.428 | 0.387 | 0.385 | 0.383 | ||
CMSSH | 0.579 | 0.556 | 0.532 | 0.435 | 0.446 | 0.424 | 0.535 | 0.487 | 0.456 | |||
STMH | 0.587 | 0.625 | 0.651 | 0.481 | 0.514 | 0.515 | 0.468 | 0.546 | 0.561 | |||
SePH | 0.755 | 0.773 | 0.785 | 0.651 | 0.679 | 0.685 | 0.578 | 0.613 | 0.634 | |||
DCMH | 0.765 | 0.752 | 0.752 | 0.545 | 0.563 | 0.595 | 0.513 | 0.556 | 0.657 | |||
OURS | 0.834 | 0.862 | 0.876 | 0.681 | 0.712 | 0.764 | 0.650 | 0.685 | 0.721 | |||
T | SCM | 0.554 | 0.558 | 0.556 | 0.435 | 0.432 | 0.428 | 0.386 | 0.386 | 0.385 | ||
CMSSH | 0.566 | 0.593 | 0.519 | 0.435 | 0.443 | 0.425 | 0.535 | 0.476 | 0.451 | |||
STMH | 0.612 | 0.623 | 0.655 | 0.434 | 0.469 | 0.461 | 0.523 | 0.551 | 0.579 | |||
SePH | 0.687 | 0.698 | 0.711 | 0.575 | 0.576 | 0.567 | 0.571 | 0.622 | 0.657 | |||
DCMH | 0.765 | 0.750 | 0.788 | 0.551 | 0.594 | 0.621 | 0.548 | 0.574 | 0.610 | |||
OURS | 0.893 | 0.912 | 0.915 | 0.733 | 0.767 | 0.763 | 0.746 | 0.780 | 0.835 |
表选项
![]() |
图 3 基于三种数据集的跨模态检索任务的查准率—查全率曲线 |
图选项 |
4 结论本文提出了一种可用于端到端训练的基于自监督学习的深度语义保持Hash网络进行Hash编码和Hash函数的学习。该框架利用多模态训练数据对的多标签语义信息建立深度语义Hash网络,并通过自监督对抗学习的方式同时监督指导2个单一模态的深度Hash网络的训练过程,从而在全局角度保持不同模态数据之间的语义关联,同时利用跨模态注意力机制度量不同模态高层语义特征之间的相似性,最大化异构媒体数据间的局部语义关联性。通过在3个被广泛使用的大规模多模态媒体数据集上验证了提出框架的有效性。未来研究工作将进一步尝试构建更加有效的深度Hash网络,并考虑引入transformer结构和图神经网络,设计更加有效的损失函数,从更多角度探索和挖掘多模态数据间的语义相似性。
参考文献
[1] | WAN J, WANG D Y, HOI S C, et al. Deep learning for content-based image retrieval: A comprehensive study[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando Florida, USA: ACM, 2014: 157-166. |
[2] | ZHUANG Y T, YU Z, WANG W, et al. Cross-media hashing with neural networks[C]//Proceedings of the 22nd ACM International Conference on Multimedia. Orlando Florida, USA: ACM, 2014: 901-904. |
[3] | SONG J, YANG Y, HUANG Z. Inter-media hashing for large-scale retrieval from heterogeneous data sources[C]//Proceedings of the 2013 ACM SIGMOD International Conference on Management of Data. New York, USA: ACM, 2013: 785-796. |
[4] | DING G G, GUO Y C, ZHOU J L, et al. Large-scale cross-modality search via collective matrix factorization hashing[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5427-5440. |
[5] | BRONSTEIN M M, BRONSTEIN A M, MICHEL F, et al. Data fusion through cross-modality metric learning using similarity-sensitive hashing[C]//Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Francisco, USA: IEEE, 2010: 3594-3601. |
[6] | WU B T, YANG Q, ZHENG W S, et al. Quantized correlation hashing for fast cross-modal search[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 3946-3952. |
[7] | LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. |
[8] | ZHANG J, PENG Y X, YUAN M K. Unsupervised generative adversarial cross-modal hashing[C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI Press, 2018: 539-546. |
[9] | JIANG Q Y, LI W J. Deep cross-modal hashing[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA: IEEE, 2017: 3270-3278. |
[10] | WANG B K, YANG Y, XU X, et al. Adversarial cross-modal retrieval[C]//Proceedings of the 25th ACM International Conference on Multimedia. Mountain View, USA: ACM, 2017: 154-162. |
[11] | LIONG V E, LU J W, TAN Y P, et al. Cross-modal deep variational hashing[C]//Proceeding of the 2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 4097-4105. |
[12] | CHATFIELD C, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: Delving deep into convolutional nets[C]//Proceedings of the British Machine Vision Conference. Nottingham, UK: BMVA Press, 2014: 1-12. |
[13] | LE Q, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st International Conference on International Conference on Machine Learning. Beijing, China: JMLR, 2014: 1188-1196. |
[14] | MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//Proceedings of the International Conference on Learning Representations. Scottsdale, USA, 2013: 2-11. |
[15] | LEE K H, CHEN X, HUA G, et al. Stacked cross attention for image-text matching[C]//Proceedings of the 15th European Conference on Computer Vision. Munich, Germany: Springer, 2018: 212-228. |
[16] | HUISKES M J, LEW M S. The MIR flickr retrieval evaluation[C]//Proceedings of the 1st ACM International Conference on Multimedia Information Retrieval. Vancouver, Canada: ACM, 2008: 39-43. |
[17] | CHUA T S, TANG J H, HONG R C, et al. NUS-WIDE: A real-world web image database from national university of Singapore[C]//Proceedings of the ACM International Conference on Image and Video Retrieval. Santorini, Greece: ACM, 2009: Article No. : 48. |
[18] | LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 740-755. |
[19] | WANG D, GAO X B, WANG X M, et al. Semantic topic multimodal hashing for cross-media retrieval[C]// Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI Press, 2015: 3890-3896. |
[20] | LIN Z J, DING G G, HU M Q, et al. Semantics-preserving hashing for cross-view retrieval[C]//Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA: IEEE, 2015: 3864-3872. |
[21] | ZHANG D Q, LI W J. Large-scale supervised multimodal hashing with semantic correlation maximization[C]//Proceedings of the 28th AAAI Conference on Artificial Intelligence. Québec City, Canada: AAAI Press, 2014: 2177-2183. |