跨模态检索需要同时处理不同模态的数据,这些数据在语义上具有一定的相似性,但是其底层特征是异构的,难以直接计算它们的相似度,即存在“语义鸿沟”的问题。基于联合嵌入空间的方法在大多数跨模态检索算法中被使用,因为它能建立起不同“语义鸿沟”的桥梁[1]。在这个联合嵌入空间中,多模态数据以点的形式表示,两点的距离反映了对应的原始数据之间的语义相似性。
近年来,基于联合嵌入空间方法的跨模态视频检索算法受到了人们的广泛关注[2-5]。现有的检索算法大多与图像-文本检索算法[6-7]在设计上非常相似,这些算法一方面通过设计合理的损失函数,使视频信息和文本信息能够映射到统一共享子空间中,使不同模态的数据能够在同一度量空间中计算相似度。例如,Faghri等[7]设计了一种基于共享子空间学习的跨模态检索算法,该算法采用了一种精心设计的三元组距离度量损失函数,改善了视觉-语义特征判别力不足的问题,提升了跨媒体检索的准确率。Torabi等[5]提出了一种非对称的相似性度量方法,该方法可以捕获视觉内容相同但描述细节不同的文本之间的相似度。另一方面,这些算法采用了图像-文本检索的方式,通过视频帧的均值池化特性,将视频特征转化为图像特征,然后在现有的图像-文本嵌入方法[6]基础上进行简单的微调即可扩展为视频文本跨模态检索模型[2-4]。然而,这些算法存在一定的局限性,一是仅仅考虑视频中的全局信息,而忽略了视频内部丰富的时空动态信息,导致模型无法区分视频帧之间的语义交互关系,二是在对视频帧进行池化过程中,每个视频帧对视频语义的重要程度都视作相同的,使得模型难以捕捉到视频中的重要信息,因此这些算法的检索性能难以令人满意。
为了解决以上问题,本文提出基于多语义线索的跨模态视频检索(Multi-semantic Clue Cross modal Video Retrieval,MCCVR)框架。在该框架中,同时提取了视频中的全局、局部和上下文信息,并对此3种信息进行有效融合,构成了关于视频内容的多语义线索,将其应用于跨模态检索中有效提升了特征的表现力。在提取全局信息的过程中,为了有效提取视频中重要的视频帧,采用一种自下而上的多头目自注意力机制捕捉视频模态数据内部的细微交互,有选择性地关注视频内部的重要信息增强模型的表征能力。为了利用视频内容中一定时空范围内的动态信息,本文对视频帧相邻帧之间具有细微差别的局部数据进行了联合编码,从而更好地挖掘出视频和文本数据中的语义信息。不仅如此,本框架还采用了双向GRU以捕捉多模态数据内部上下文之间的交互信息。除此之外,针对传统的三元组距离度量损失函数中存在的正负样本不平衡问题,提出了一种基于相似性排序的困难负样本挖掘方法,有效提升了生成特征的判别力。本文的主要贡献如下:
1) 提出了一种基于多语义线索的跨模态视频检索框架,采用多级耦合的方式综合考察了视觉/文本的全局、局部和上下文信息,从而能够生成具有更强判别力的模态特征。
2) 提出了一种改进的三元组距离度量损失函数,采用了基于相似性排序的困难负样本挖掘方法,改善了正负样本不平衡问题,提升了跨模态特征学习的效果。
3) 在多项测试数据集中与现有的最好方法对比,总召回率取得了一定的提升,其中,在MSVD的文本检索视频任务上,总召回率提升了11.1%。
1 相关工作 1.1 跨模态检索 跨模态检索是指在不同模态的数据中检索与提供的查询样本语义相关的结果。常见的跨模态检索问题有通过关键词检索图片,或者通过图片检索其相关描述等。跨模态检索问题的主要困难在于如何度量不同模态的数据之间的相似度。较为普遍的一种做法是将不同模态数据的元素映射到一个共享的隐空间(Latent Space)中,在其中将语义相似的元素对齐,使在该隐空间中不同模态数据之间可以进行比较。跨模态检索领域的一种经典方法是由Rasiwasia等[6]提出的典型关联分析(Canonical Correlation Analysis, CCA),最大限度地提高了图像和文本之间的相关性。基于CCA,很多****提出了改进的方法[8-10]。然而,基于CCA的方法是不稳定的,并由于协方差矩阵计算[11]导致高内存成本。
最近大多数与文本和图像模态相关的工作都是用基于排名的损失函数进行训练的[11-13]。Frome等[12]提出了一种将单词和视觉内容投影到联合空间的方法,利用排名损失,当非匹配单词的排名高于匹配单词时,对其进行惩罚。Kiros等[13]提出了一种跨模态的图像-文本检索方法,利用三重排序损失对图像特征进行投影,并利用基于RNN的句子描述对一个共同的潜在空间进行检索。Wang等[11]提出了一种多模态注意机制,有选择地关注句子片段和特定的图像区域进行相似性计算。
1.2 视频文本跨模态检索 与视频和文本2种模态相关的计算机视觉的2个主要任务是视频文本检索(Video-Text Retrieval)和视频字幕生成(Video Captioning),本文只关注检索任务。与图像-文本检索算法相似,大多数视频-文本检索算法使用共享子空间的方法。Xu等[14]通过word2vec模型[15]对从给定句子中提取的每个主语-动词-宾语三元组进行矢量化,然后将其聚合,使用卷积神经网络将主语、动词、宾语(SVO)向量转换成句子级向量,视频特征向量是通过将每帧特征进行平均池化得到的。然后利用最小二乘损失函数进行训练,将句子表示和视频表示投影到一个联合嵌入空间中。Faghri等[7]提出了一个寻求联合使用多个句子编码策略的方法,这些策略包括bag-of-words、word2vec和GRU。然而,该工作只是使用视频的平均池化编码。Dong等[2]提出了一种针对视频句子匹配任务的word2vec方法,利用均值平方损失将向量化的句子投射到视觉特征空间中。Mithun等[3]提出了一种基于图像、文本和声音形态的共享空间,并将其应用于视频文本检索任务中。
这些视频文本检索算法大多与图像文本检索算法在设计上非常相似,未利用多模态数据中丰富的特征进行检索。与现有的工作相比,本文算法能够同时提取出多模态特征中的全局特征、上下文语义特征以及局部特征以实现更有效的检索。
2 模型设计 2.1 模型框架 本文提出的MCCR框架如图 1所示,该框架采用了一个对称式的网络结构,即视频编码层和文本编码层具有相似的结构,这也意味着本框架在处理视觉信息和文本信息上采用了类似的处理方法。因此,为了方便描述,这里将以视频模态编码为例,详细描述所提出的多语义线索特征,并在此基础上对如何提取文本内容的多语义特征进行阐述。在视频编码模块,基于平均池化和多头目自注意力机制,分别挖掘出多模态数据中重复出现和对语义起重要作用的特征,得到全局特征;基于双向GRU捕捉到上下文语义特征,挖掘出多模态数据中上下文之间的交互特征;基于一维位神经卷积神经网络(CNN)捕捉局部特征,挖掘出局部视频帧之间的交互特征。通过全局特征、上下文交互特征和局部特征的耦合,可以得到多模态数据中丰富的语义线索。
图 1 MCCR模型示意图 Fig. 1 Schematic diagram of proposed MCCR model |
图选项 |
2.2 视频编码模块
2.2.1 Level-1:视频全局特征编码 视频编码层采用注意力机制和平均池化相结合的方式计算视频的全局编码。
平均池化的方法在视频跨模态检索中被广泛使用,它能捕获在视频内容中重复出现的视觉模态。这些重复出现的视觉模态往往是全局性的,对整体的语义有着重要作用。假设每隔0.5 s抽取一帧,每帧通过ImageNet预训练后的ResNet模型[16]的倒数第二层作为图片特征编码(维度为2 048维),可以得到
(1) |
在一段视频中,往往会出现其中的某几帧会对描述整段视频语义其关键作用的情况。例如,在一段跨栏田径比赛的视频中,包含跨栏动作的视频往往只占整段视频的一小部分,但是能够将跨栏的视频与跑步的视频区分开来。对于这种情况,平均池化方法往往会忽略关键帧的作用,导致全局特征无法有效表示视频全局信息。鉴于此,提出了一种关键帧加权的池化方法,将不同视频帧根据其重要性赋予不同权重,从而在池化的过程中能够重点关注关键帧的信息。受Song和Soleymani[17]的启发,本文采用一种自下而上的多头目自注意力机制捕捉视频模态数据内部的细微交互,有选择性地关注视频内部的重要信息来增强模型的表征能力。它是通过2个偏置项为0的全连接层和一个softmax层实现的:
(2) |
式中:
(3) |
式中:βt, i为第i个注意力机制判定的第t帧的权重。
通过结合视频中平均池化特征和加权池化特征,可以得到视频全局特征编码:
(4) |
2.2.2 Level-2:视频上下文特征编码 Level-1中只提取了视频中的全局特征,忽略了视频内部丰富的时空动态信息,导致模型无法区分视频帧之间的语义交互关系。本文采用双向GRU(bi-GRU)[18]对视频上下文特征进行编码,其参数比LSTM少,因此只需要较少的训练数据。
(5) |
一个双向GRU由2个分离的GRU层组成,即前向GRU层和一个反向的GRU。前向GRU将每帧视频的特征按照正常的先后顺序输入,而反向GRU按照反向的顺序输入。用
(6) |
2.2.3 Level-3:视频局部特征编码 在考虑其他视频帧和某一帧的交互特征时,Level-2层将其他视频帧的输出权重都设为相同值,这会导致模型难以捕捉视频中的重要信息。大多数情况下,某一帧只与它相邻几帧有较大的交互作用,与距离比较远的交互作用较小。充分利用相邻帧之间的局部交互信息,将形成能够区分视频细微差别的细粒度视频特征。因此,受文本分类领域[19]方法启发,本文在Level-2上下文特征的基础上,采用了1维卷积对相邻帧进行联合编码,以捕捉视频的局部交互信息。
CNN的输入是2.2.2节双向GRU模块生成的特征列表H。用Conv1 dk, r表示一维卷积模块,包含r=512个大小为k的卷积核。将H通过Conv1 dk, r和padding操作,可以产生n×k个特征。用RELU激活函数进行非线性变换,增强模型的拟合能力。因为每个视频的帧数n不一样,可以利用max pooling将特征列表H转换为固定长度为r的向量ck:
(7) |
一个k=2的卷积核可以用作求2个在H中的相邻行之间的交互,同样的,k表示相邻的k个视频帧之间的交互。用卷积核k=2, 3, 4, 5生成多个范围的特征表示。它们的输出被串联起来,形成基于双向GRU-CNN的编码:
(8) |
由于fv(1)、fv(2)、fv(3)是通过特定的编码方法在不同的层次上依次得到的,所以3个编码结果存在一定的互补性,一定的冗余是合理的。因此,将3层的输出串联起来,得到输入视频的多级编码:
(9) |
2.3 文本编码模块 视频编码模块经过细微修改后,同样适用于文本。给定一个长度为m的句子s,用独热编码表示它的每个单词。因此,可以生成一个独热编码向量序列
对于Level-2的编码,首先通过用3 000万张Flickr图片的英语描述进行预训练[20]的word2vec[15]模型,将其转换为一个词向量。将基于双向GRU的句子编码的特征表示为fs(2)。类似地,本文将基于一维CNN的特征编码记为fs(3)。这里,使用3个一维卷积块,卷积核大小k=2, 3, 4,将文本编码层的所有编码结果串联,得到句子的多级编码:
(10) |
?(v)和?(s)没有直接的关系,不直接进行比较。在视频文本相似度计算中,需要将向量投影到公共空间中,然后给出学习算法。
2.4 联合嵌入编码模块 对于编码后得到的视频特征?(v)和文本特征?(s),将它们通过仿射转换映射到一个共享空间中, 通常的做法是利用全连接层进行映射。经过一些理论研究[7],本文采用在全连接后加上批量正则层,因为这样效果更好。通过下面的变换,将得到共享空间的视频特征向量f(v)和f(s):
(11) |
式中:Wv和Ws分别为视频侧和文本侧的全连接的参数;bv和bs分别为Wv和Ws的参数。
2.5 损失函数 在联合嵌入空间中,视频与文本对之间的相似度能反映出原视频与对应文本之间的语义相似度,以往的许多方法结合双向排序项,最小化三元组损失函数,以学习最大化视频嵌入和相应文本嵌入之间的相似度,并最小化所有其他非匹配项的相似度。优化问题可以写为
(12) |
式中:[·]+=max(f, 0);s-为和视频不匹配的文本;s为和视频匹配的文本;对于视频v-和v的表示方法类似;τ为距离常数;θ为神经网络所有参数;S(v, s)定义为相似度函数,测量视频与文本在共享空间内的相似度。
传统的三元组损失面临正负样本不平衡的问题,即在实际情况当中,负样本的个数往往远大于正样本的个数。然而,数量庞大的负样本中仅有少量样本能够对训练起到促进作用,如果随机选取负样本容易造成模型训练不稳定的情况。为了解决这个问题,Faghri等[7]提出了硬负样本挖掘的方法,从负样本集合中挑选较有价值的困难负样本参与训练。然而硬负样本挖掘容易受到数据中的噪声影响,且忽略了负样本集合中其他负样本的作用。在此基础上,本文通过加权排序的思想,对损失函数进行优化,根据匹配的视频文本对的相对排序对损失函数进行加权,提出基于距离度量的三元组损失函数:
(13) |
式中:L(·)为不同秩的加权函数;对于视频嵌入v, rv为所有跟v比较的句子中的相似度排名。同样,对于一个文本嵌入s,rs为所有跟s比较的视频中的相似度排名。将加权函数定义为L(r)=1+1/(N-r+1),N为batch的大小,在本文中为128。
从式(13)中可以明显看出,损失函数是基于检索结果中语义相似样本对相似度排名权重的函数。如果语义相似的样本对的相似度在所有样本对的相似度中排名靠前,那么L(·)将把一小部分重量分配给损失,而不会使损失函数过大。然而,如果语义相似的样本对的相似度排在靠后的位置,L(·)将分配一个大得多的权重给损失,这最终会将语义相似的样本对的相似度的排名靠前。
3 实验 3.1 数据集 本文在2个基准数据集上进行了实验:Microsoft Research Video to Text (MSR-VTT)[21]数据集和Microsoft Video Description Dataset (MSVD)[22]数据集,以评估所提框架性能。
MSR-VTT是一个大型的视频描述数据集,包含10 000个视频剪辑。数据集分为6 513个训练视频、2 990个测试视频和497个验证集视频,每个视频有20句话的描述。就句子的数量和词汇量而言,这是最大的视频字幕数据集之一。
MSVD数据集包含1 970个Youtube剪辑,每个视频都有大约40个句子的注释。本文只使用英语描述,利用1 200个训练视频,100个验证视频,670个测试视频。
3.2 实验设置
3.2.1 实验细节 本文代码使用Pytorch框架实现,模型使用Adam优化器进行训练,学习率为10-4,α为0.3,批尺寸为128。以上超参数均在验证集上进行选择,本文实验均是多次实验求均值后的结果。
在计算损失函数时,将一个批(batch)中所有的样本均视为锚样本,对每个锚样本,在该batch中寻找所有符合条件的正负例构建三元组,并对每个批中所有视频和文本之间的相似度进行排序,以计算检索损失和语义损失。
3.2.2 评价指标 本文实验选取了使用视频检索文本(Video-to-Text Retrieval)及使用文本检索视频(Text-to-Video Retrieval)2个任务来衡量模型的准确率。实验采用中位序数(Median Rank, MedR)以及top K召回率(Recall rate at top K, R@K)作为准确率评价指标。中位序数指所有检索样本对应的被检索样本在检索结果中的序数的中位数,其值越低,代表模型的准确率越高;top K召回率,例如视频检索文本任务中的top 5召回率,指使用视频检索文本时,视频对应的文本出现在检索结果前5位的比率,其值越高,代表模型准确率越高。
3.3 结果比较 本文选择了近年来提出的3种跨模态视频检索领域模型作为基准算法,与本文提出的算法进行准确率比较。另外,为了证明本文提出的损失函数的有效性,加入本文(VSE++)。
1) VSE++[7]:在跨模态检索中,提出硬负样本挖掘的方法。其中,用ResNet-152提取视频特征,用平均池化的方法表示视频侧总特征。
2) W2VV[4]:将不同模态数据都映射到视觉语义空间的方法。
3) Fusion[3]:利用视频模态特征与语音特征融合的表示视频侧特征,因为在数据集MSVD中,视频是消音的,所以仅提取视频中的视觉特征,而在MSR-VTT数据集中该方法加入了音频特征。
4) 本文(VSE++):在本文模型的基础上,用式(12)的损失函数进行训练。
3.3.1 跨模态视频检索 由表 1和表 2可知,本文模型的准确率在不同的任务、不同的数据集下均显著地优于3种基准算法。其中,在MSVD数据集上,Recall Sum相比目前最优的算法,提高了3.7%,视频检索文本任务中召回率相比最优的算法提高了5.0%,在MSR-VTT数据集上,Recall Sum相比于目前最优的算法,提高了4.0%,视频检索文本任务中召回率相比最优的算法提高了11.1%,注意到Fusion在视频检索文本任务上表现较本文提出的算法效果好,可能是因为在MSR-VTT数据集上,存在音频数据,给该算法提供了额外的语音特征。本文提出的损失函数相较于硬负样本挖掘的方法在MSVD数据集上总召回率提升了2.0%,在MSR-VTT提升了2.4%。3种基准算法在图像和文本编码模块上均未能充分挖掘出数据特征,而本文模型通过多语义线索和改进的三元组距离度量损失函数,取得了更高的检索准确率。
表 1 在MSR-VTT数据集上的结果 Table 1 Results on MSR-VTT dataset
算法 | 文本检索视频 | 视频检索文件 | Recall Sum | |||||||
R@1 | R@5 | R@10 | MedR | R@1 | R@5 | R@10 | MedR | |||
VSE++ | 5.0 | 16.4 | 24.6 | 47 | 7.7 | 20.3 | 31.2 | 28 | 105.2 | |
W2VV | 5.5 | 17.6 | 25.9 | 51 | 9.1 | 24.6 | 36.0 | 23 | 118.7 | |
Fusion | 7.0 | 20.9 | 29.7 | 38 | 12.5 | 31.3 | 42.4 | 14 | 143.8 | |
本文(VSE++) | 7.6 | 21.7 | 31.2 | 31 | 12.2 | 29.4 | 42.4 | 18 | 144.5 | |
本文 | 7.8 | 23.0 | 33.1 | 29 | 13.1 | 30.7 | 43.1 | 15 | 150.8 |
表选项
表 2 在MSVD数据集上的结果 Table 2 Results on MSVD dataset
算法 | 文本检索视频 | 视频检索文本 | Recall Sum | |||||||
R@1 | R@5 | R@10 | MedR | R@1 | R@5 | R@10 | MedR | |||
VSE++ | 15.4 | 39.6 | 53.3 | 9 | 21.2 | 43.4 | 52.2 | 9 | 225.1 | |
W2VV | 15.4 | 39.2 | 51.4 | 10 | 16.3 | 33.4 | 44.8 | 14 | 200.5 | |
Fusion | 18.9 | 46.1 | 60.9 | 6 | 30.6 | 49.1 | 61.5 | 6 | 267.1 | |
本文(VSE++) | 19.7 | 48.2 | 61.0 | 6 | 31.7 | 50.7 | 61.8 | 6 | 272.5 | |
本文 | 20.9 | 49.0 | 62.6 | 5 | 32.2 | 51.1 | 62.2 | 5 | 278.0 |
表选项
3.3.2 消融分析 表 3展示MCCR的各个编码部分(Level-1、Level-2、Level-3)及其组合在MSR-VTT数据集上对检索结果的影响,该结果可以反映模型中各个部分的重要程度。图 2为MSR-VTT数据集的6个视频检索文本的测试样例,直观地展示了各编码部分及其组合的检索效果,其中GT表示随机抽取的正样本,各算法后的数字表示该算法检索时正例的最佳排名。
表 3 在MSR-VTT数据集上的消融分析结果 Table 3 Ablation analysis results on MSR-VTT dataset
方法 | 文本检索视频 | 视频检索文本 | Recall Sum | |||||||
R@1 | R@5 | R@10 | MedR | R@1 | R@5 | R@10 | MedR | |||
Level-1 | 6.4 | 18.9 | 27.1 | 46 | 11.9 | 28.3 | 39.2 | 22 | 131.8 | |
Level-2 | 6.3 | 19.7 | 28.8 | 38 | 10.0 | 26.2 | 38.3 | 20 | 128.8 | |
Level-3 | 7.3 | 21.5 | 31.2 | 32 | 10.6 | 27.3 | 38.5 | 20 | 136.4 | |
Level-(1+2) | 7.2 | 21.3 | 29.6 | 37 | 12.1 | 30.5 | 40.9 | 17 | 141.6 | |
Level-(1+3) | 7.4 | 21.2 | 32.3 | 30 | 12.4 | 29.9 | 42.5 | 16 | 147.1 | |
Level-(2+3) | 7.6 | 22.4 | 32.2 | 31 | 11.9 | 30.6 | 42.4 | 16 | 147.2 | |
Level-(1+2+3) | 7.8 | 23.0 | 33.1 | 29 | 13.1 | 30.7 | 43.1 | 15 | 150.8 |
表选项
图 2 MSR-VTT数据集的6个视频检索文本的测试样例,以及MCCR的各个编码部分(Level-1、Level-2、Level-3)及其组合的检索结果 Fig. 2 Test samples of 6 video retrieval words in MSR-VTT dataset, as well as the retrieval results of each coding part (Level-1, Level-2, level-3) of MCCR and its combination. |
图选项 |
可以看到,单独使用一个编码部分进行训练时,在3个部分中,使用Level-3进行训练得到的准确率最高,这反映了局部特征编码的重要性。
同时,这也说明了模型在理解输入的多模态数据时,随着编码层的增多,模型的性能逐渐提升,图 2直观地证明了以上结论。
3.3.3 敏感度分析 在本文提出的MCCR模型,视频编码侧的Level-1层中,通过引入超参数k构建注意力模型的个数,进而捕捉k次视频帧的重要信息。为了探究本文提出的MCCR对于注意力模型个数的敏感程度,k的取值限定在0, 1, 2, 3, 4, 5,在MSR-VTT数据集进行实验,检索结果如图 3和图 4所示,图 3表示以文本检索视频的表现,图 4表示以视频检索文本的表现。
图 3 文本检索视频 Fig. 3 Text to video retrieval |
图选项 |
图 4 视频检索文本 Fig. 4 Video to text retrieval |
图选项 |
由图 3和图 4可知,通过适当地增加注意力模型的个数,可以提升模型的检索准确率。当k小于3时,随着注意力模型个数的增加,检索准确度存在一定程度的上升,当k大于3时,检索准确度下降。原因可能是在一定范围内,随着注意力模型个数的增加,提取出重要视频帧的信息也越来越多,因此可以提升检索效果。然而注意力机制越多,需要训练的参数越多,模型欠拟合,检索效果下降。
4 结论 针对当前人们对不同模态数据检索的需求,本文提出了基于多语义线索的跨模态视频检索算法,可以根据给定的句子检索出语义相似的视频,同时也可以根据给定的视频检索出语义相似的句子,进而达到跨模态检索的目的。本文所做贡献如下:
1) 将每种模态数据都通过了数层的编码,将各层的编码结果耦合连接得到多种语义特征。在视频编码模块,基于平均池化和多头目自注意力机制,分别挖掘出多模态数据中重复出现和对语义起重要作用的特征,得到全局特征;基于双向GRU捕捉到上下文语义特征,挖掘出多模态数据局部特征,挖掘出局部视频帧之间的交互特征。通过全局特征、上下文交互特征和局部特征的耦合,可以得到丰富的语义线索描述这2种模态数据。
2) 在模型的基础上提出了基于加权排序的三元组损失函数,在一定程度上解决了负样本对比正样本对相似度高的问题,进而提升了模型的检索效果。
尽管本文模型相对现有的算法已经有了明显进步,但还没有达到尽善尽美的地步。当前算法在视频模态中未利用语音模态数据,对视频的语义也起到了重要的作用。将来会在算法中考虑语音模态数据,进而提高检索效果。
参考文献
[1] | 张鸿, 吴飞, 庄越挺. 跨媒体相关性推理与检索研究[J]. 计算机研究与发展, 2008, 45(5): 869. ZHANG H, WU F, ZHUANG Y T. Research on cross-media correlation inference and retrieval[J]. Computer Research and Development, 2008, 45(5): 869. (in Chinese) |
[2] | DONG J, LI X, SNOEK C G M. Predicting visual features from text for image and video caption retrieval[J]. IEEE Transactions on Multimedia, 2018, 20(12): 3377-3388. DOI:10.1109/TMM.2018.2832602 |
[3] | MITHUN N C, LI J, METZE F, et al. Learning joint embedding with multimodal cues for cross-modal video-text retrieval[C]//Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. New York: ACM Press, 2018: 19-27. |
[4] | DONG J, LI X, SNOEK C G M. Word2VisualVec: Image and video to sentence matching by visual feature prediction[EB/OL]. (2016-04-23)[2020-08-01]. https://arxiv.org/abs/1604.06838. |
[5] | TORABI A, TANDON N, SIGAL L. Learning language-visual embedding for movie understanding with natural-language[EB/OL]. (2016-08-26)[2020-08-01]. https://arxiv.org/abs/1609.08124. |
[6] | RASIWASIA N, COSTA P J, COVIELLO E, et al. A new approach to cross-modal multimedia retrieval[C]//Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 251-260. |
[7] | FAGHRI F, FLEET D J, KIROS J R, et al. VSE++: Improving visual-semantic embeddings with hard negatives[EB/OL]. (2017-07-18)[2020-08-01]. https://arxiv.org/abs/1707.05612. |
[8] | GONG Y, KE Q, ISARD M, et al. A multi-view embedding space for modeling internet images, tags, and their semantics[J]. International Journal of Computer Vision, 2014, 106(2): 210-233. DOI:10.1007/s11263-013-0658-4 |
[9] | HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: Data, models and evaluation metrics[J]. Journal of Artificial Intelligence Research, 2013, 47(24): 853-899. |
[10] | 李志欣, 施智平, 陈宏朝, 等. 基于语义学习的图像多模态检索[J]. 计算机工程, 2013, 39(3): 258-263. LI Z X, SHI Z P, CHEN H C, et al. Multi-modal image retrieval based on semantic learning[J]. Computer Engineering, 2013, 39(3): 258-263. (in Chinese) |
[11] | WANG L, LI Y, HUANG J, et al. Learning two-branch neural networks for image-text matching tasks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 41(2): 394-407. |
[12] | FROME A, CORRADO G S, SHLENS J, et al. Devise: A deep visual-semantic embedding model[C]//Advances in Neural Information Processing Systems. New York: ACM Press, 2013: 2121-2129. |
[13] | KIROS R, SALAKHUTDINOV R, ZEMEL R S. Unifying visual-semantic embeddings with multimodal neural language models[EB/OL]. (2014-11-10)[2020-08-01]. https://arxiv.org/abs/1411.2539. |
[14] | XU R, XIONG C, CHEN W, et al. Jointly modeling deep video and compositional text to bridge vision and language in a unified framework[C]//Proceedings of the 29th AAAI Conference on Artificial Intelligence, 2015: 6. |
[15] | MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-01-16)[2020-08-03]. https: //arxiv.org/abs/1301.3781. |
[16] | HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778. |
[17] | SONG Y, SOLEYMANI M. Polysemous visual-semantic embedding for cross-modal retrieval[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 1979-1988. |
[18] | CHO K, VAN MERRIËNBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL]. (2014-01-03)[2020-08-01]. https://arxiv.org/abs/1406.1078. |
[19] | KIM Y. Convolutional neural networks for sentence classification[EB/OL]. (2014-08-25)[2020-08-01]. https://arxiv.org/abs/1408.5882. |
[20] | YOUNG P, LAI A, HODOSH M, et al. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions[J]. Transactions of the Association for Computational Linguistics, 2014, 2(1): 67-78. |
[21] | XU J, MEI T, YAO T, et al. MSR-VTT: A large video description dataset for bridging video and language[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 5288-5296. |
[22] | CHEN D, DOLAN W B. Collecting highly parallel data for paraphrase evaluation[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011: 190-200. |