为了使模型更好地发现图像结构信息,Lu等[2]使用Faster R-CNN[3-4]来识别图像实体,再进而根据文本信息来建立图像中实体间关系。为了使模型更好地学习语法规则,Aditya[5]和Wang[6]等将词性序列和句法树等语法信息作为模型的先验知识,并将之与词向量共同输入到解码端参与文本生成。然而,词性序列和句法树包含的语法规则只蕴含每个词的标注信息,虽然序列或树的表示形式能提供一定的结构信息,但仍不能精准地体现文本中词与词之间的关系,即图像中实体间应存在的语法关系,如依存句法关系。因此,本文为模型引入由依存句法构建的语言模型,增强模型理解图像实体间的语法规则的能力,同时在一定程度上提高基于深度学习的图像描述文本生成模型的可解释性。
由于文本单词间可能存在长距离的依存关系,本文选择可以捕获序列内部长距离依赖的自注意力机制(Self-Attention)[7]来对每个依存句法单元进行编码。编码阶段,在模型得到基于视觉注意力机制计算出的图像区域特征后,为了得到图像区域间的结构语法关系表示,本文提出了一种图像结构注意力方法,从依存句法中提取词与词之间的语法关系,并将其关联在与图像对应的实体上;将两者进行融合并与当前时刻的文本特征向量共同作为LSTM的输入,解码生成文本。
针对图像与依存句法的对应关系,在训练阶段,每幅图像与依存句法以描述文本为纽带,呈现直接对应关系;在测试阶段,为得到与测试图像匹配的依存句法模板,本文提出了一种基于内容重合度的提取方法,该方法将训练一个图像标签分类器,旨在输出给定图像相应的内容关键词,根据测试图像与训练图像集的最大内容重合度建立起测试图像与训练图像的对应关系,从而间接建立测试图像与依存句法模板的映射关系。
本文提出的基于依存句法的图像描述文本生成模型训练阶段将依存句法应用在图像结构注意力中,测试阶段根据图像内容重合度建立测试图像与依存句法模板的映射关系。此外,模型生成的图像局部间结构语法关系与依存句法单元对应,生成文本的句法与提取的依存句法相吻合。
1 相关工作 编解码方法最初被广泛应用于机器翻译[8],Vinyals等[9]将其迁移至图像描述文本生成领域,取得了显著的效果。Xu等[1]提出了一种基于注意力机制的方法来优化LSTM的存储能力,使模型在不同时刻关注图像不同区域,生成更准确的描述句子。Zhu等[10]提出了一种基于主题词的图像描述文本生成方法,使生成的句子可以包含更多的图像焦点信息。Wang等[11]提出了一种基于内源性和外源性视觉信息来生成不同角度的描述句子的方法。为了使图像信息与文本信息更加契合,Liu等[12]提出了一种多头注意力机制来使图像中的信息与视觉文本信息对齐,使解码端可以更加准确地解析模型提供的图像与文本信息。
上述方法均致力于从图像中挖掘更多的视觉信息来填充句子,而在句子结构与句法层次的优化上稍有欠缺。为了使生成模型学习到更多的句子结构信息,Wang等[6]提出了一种基于句子骨架与属性词的图像描述文本生成方法,将从图像中得到的信息按照属性词与骨架的排序生成句子。Aditya等[5]提出了一种基于词性标注序列的图像描述文本生成方法,加快句子生成速度的同时,也增加了句子描述事物的多样性。
依存句法是一种以谓语动词为结构中心的句法分析方法,在自然语言处理领域被广泛应用。Falenska和Kuhn[13]基于BiLSTM结构验证了依存句法内含结构信息的有效性。Li等[14]将半监督学习方法应用在跨领域依存句法分析中,得到了更好的中文依存句法分析效果。Wang等[15]按照依存句法单元构建句法树,验证了按此顺序定位自注意力机制中每个词,可以优化原模型,达到了提升模型效果的目的。综上所述,依存句法在提取句子结构信息方面显得十分有效。但目前,在图像描述文本生成任务当中,图像内容分析与生成文本的过程缺乏结构信息。因此,本文研究了基于依存句法的图像描述文本生成方法。
2 数据构建与模型方法 本文提出的基于依存句法的图像描述文本生成方法的训练阶段框架如图 1所示。首先,输入图像经过ResNet-101网络[16]得到图像的特征向量;然后,图像特征向量与词向量一同输入至视觉注意力以计算图像的局部区域特征向量表示,与经过自注意力机制的依存句法向量一同输入至图像结构注意力来计算图像的局部区域关系特征向量表示;最后,将图像局部区域特征向量与局部区域关系特征向量融合,与当前时刻的词嵌入向量一同输入到LSTM中生成图像描述文本。图 1所示视觉注意力来自于基于注意力的NIC+ATT模型[1]中的视觉注意力。
图 1 本文模型框架 Fig. 1 Framework of proposed model |
图选项 |
2.1 依存句法库的构建 本文使用Stanford-CoreNLP[17]对全部训练集文本进行依存句法分析,构成依存句法库。将每个依存关系与存在此依存关系的2个单词位置信息作为一个依存句法单元,其表示形式为由依存关系类型、根节点位置和自身节点位置3个元素构成的三元组,如下:
(1) |
式中: U为依存句法单元三元组;lr为与文本中第i个单词存在依存关系的节点,在文本中对应的下标;ri为文本中第lr个单词与第i个单词之间的依存关系;n为文本长度。
数据集文本中的每个单词,依存句法单元序列使其都存在唯一的依存关系三元组与之对应,且每个句子的长度与依存句法单元序列的长度相等。
如图 2所示,在依存句法分析中,名词“牛仔”是动词“骑马”的名词主语,因此三者构成三元组(‘nsubj’,6,1)。此外,中文分词的结果中包含7个词,对应的依存句法单元有7个。
图 2 图像描述文本依存句法示例 Fig. 2 A dependency syntax example of an image caption |
图选项 |
2.2 依存句法单元向量表示 自回归机制可以提取文本的向量表示,但不能很好地解决长距离依赖问题。依存句法体现的是句子中的词与根、词与词之间的关系,包含长距离的语法规则。为了使计算机更好地理解依存句法单元三元组序列,本文使用自注意力机制来解决LSTM的自回归机制不能捕获长距离关系的问题。自注意力机制摒弃自回归机制逐个输入单词计算向量表示的方法而一次性处理整个文本,因此,自注意力机制更适合用来处理具有长距离关系的文本。
(2) |
式中: Q、K和V为输入的依存句法单元序列随机嵌入向量,Q, K, V∈RL×E,L为依存句法长度,E为词嵌入向量的维度;dk为K的第三维维度;R为依存句法单元序列的向量表示;softmax为归一化函数。
2.3 图像结构注意力 一幅图像包含实体、背景等信息,且在对应的描述文本中可找到与图像中的实体对应的单词。从构成句子的句法规则角度来看,为了生成句法正确的文本,掌握单词与单词之间的关系十分重要,也就是需要发现图像中实体与实体之间的关系。图像结构注意力的目的是通过文本的依存句法中表示的词与词之间的关系,使模型学习到图像中对应每个实体之间的关系特征向量表示。具体的计算公式为
(3) |
式中: I′∈RD×F与R∈RL×E分别为图像特征向量与依存句法单元序列向量,D和F分别为图像特征点数和维度;α为依存句法单元向量在图像特征点上关注的权重系数;g为依存句法单元向量在图像特征维度上关注的权重系数;W*(*∈{i, r, g})为模型参数;softmax、relu和mean分别为归一化函数、激活函数和均值函数;I为最终的图像结构特征向量。
2.4 图像描述文本生成 图像的描述文本由LSTM生成。t时刻输入至LSTM的元素由LSTM在t-1时刻生成的单词Xt1与隐藏状态ht-1、Xt-1在t时刻关注的图像视觉区域特征Ix、依存句法单元R在t-1时刻关注的图像结构特征Ir构成,Iadd为Ix与Ir的加和,ht为t时刻LSTM模型中的隐向量,Yt为模型输出的t时刻的词。具体的计算公式为
(4) |
本文提出的模型训练过程的目标为:通过最小化损失函数来学习模型的最优参数。损失函数的具体计算公式为
(5) |
式中: N为训练集一个批次的描述文本的数量;len(Y)为描述文本的长度;Yi为第j个文本的第i个词;P(Yi)为Yi在当前文本中出现的概率。
2.5 基于内容重合度的依存句法模板提取
2.5.1 内容关键词分类器 内容关键词分类器用来对测试图像进行分类,以建立起测试图像与依存句法模板的映射关系。为得到描述文本依存句法尽可能相似的图像,首先,内容关键词标签来自于训练集描述文本中的单词,且该单词在文本对应的依存句法中带有“ROOT”关系。此外,该单词是训练集文本中出现的高频词。本文根据上述规则选择300个关键词作为内容关键词分类器的标签,且将该分类器视为一种图像多分类问题。具体计算公式为
(6) |
式中: I为图像特征向量;MLP2为多层感知机模型,此处层数为2。
2.5.2 内容重合度 内容重合度体现了测试图像与训练图像集中的每幅图像的相似程度。由于每个内容关键词代表图像中可能出现的实体或关系,基于关键词的内容重合度可以很好地提取主题类似的2幅图像。
测试图像经过内容关键词分类器得到Top-K的标签集Ct,同样地,训练集中的每幅图像也得到Top-K的标签集Ctr。由于每个标签的可信度均不同,导致每个标签都会被赋予不同的权重。根据测试图像与训练图像的内容重合度S来确定测试图像与训练图像之间的相似关系。内容重合度的计算公式为
(7) |
式中: indti表示测试图像的Top-K标签集Ct中的第i个,同时在Ctr中出现的标签ci在Ct中对应的下标值;indtr表示标签ci在训练图像的Top-K标签集Ctr中的下标值。在所有的标签集合Ct和Ctr中,标签的下标值越大,其对应的权重越小。Six代表第x幅训练图像与测试图像相同的第i个标签的得分,M为相同标签的个数,Sx则为第x幅训练图像与测试图像的内容重合度。本文通过比较Sx的数值大小来确定训练图像集中与测试图像最相似的图像,进而建立测试图像与依存句法模板的映射关系。以K=3举例,假设Ct=[16, 7, 8],Ctr1=[1, 7, 6],Ctr2=[1, 7, 8],则S1=2,S2=3。
算法1?? 内容重合度计算。
输入:测试图像T=(t1, t2, …, tn); 训练图像X=(x1, x2, …, xm)。
输出:测试图像与训练图像的重合度S。
步骤1?? 测试图像标签集Ct←labels(T)(见式(6))。
步骤2?? 训练图像标签集Ctr←labels(X)(见式(6))。
步骤3?? 相同标签集C←(Ct, Ctr)。
步骤4?? 对应下标indt, indtr←(C, T, X)。
步骤5?? 计算内容重合度Sx(见式(7))。
算法1最耗时操作集中在标签识别上,即步骤1和步骤2得到测试与训练图像标签的过程,其次是计算内容重合度Sx。假设测试图像数量为n,训练图像数量为m,则算法1的时间复杂度为O(mn)。
3 实验 3.1 实验设置 本文实验数据集采用Flickr30K、Flickr8K和Flickr8K-CN。Flickr30K是一个被广泛使用的公开英文数据集,共有图像31 784幅,每幅图像对应5个英文描述句子。Flickr8K数据集中包含图像8 091幅,同样每幅图像对应5个英文描述句子。Flickr8K-CN则为Flickr8K对应的中文版本。在测试阶段,使用了7种常见的评价指标和句子长度来验证模型生成文本的质量。7种指标分别为:BLEU-1~BLEU-4[18]、METEOR[19]、ROUGE-L[20]、CIDEr[21]。其中,前4个指标使用了n-gram算法统计生成文本与参考文本之间的覆盖率;METEOR对BLEU算法进行了一定的改进,使其更好地体现出句中单词的召回率与准确率;ROUGE-L基于最长公共子串来计算准确性与召回率;CIDEr基于TF-IDF计算生成文本与参考文本的余弦相似度来衡量文本的一致性。此外,本文将模型生成的图像描述文本平均长度Len作为第8种评测指标。
本文提出的模型选择ResNet-101网络结构来提取图像视觉特征;词嵌入与依存句法嵌入向量均为随机初始化。训练优化器是Adam,编码器的学习率为0.000 1,解码器的学习率为0.000 4,每8轮次损失未下降则使用0.8的学习率衰减系数。损失函数为交叉熵函数,模型的超参数设置如表 1所示。
表 1 超参数设置 Table 1 Hyperparameter setting
参数 | 数值 |
图像特征向量/维 | 14×14×2 048 |
词向量/维 | 512 |
依存句法向量/维 | 512 |
LSTM隐向量/维 | 512 |
自注意力机制头数 | 8 |
批处理大小 | 32 |
表选项
3.2 实验结果分析 表 2~表 4分别表示了本文模型在Flickr30K、Flickr8K与Flickr8K-CN数据集上的实验结果(表中加粗数据为最优结果)。其中,NIC+ATT是基于注意力机制的神经图像描述生成模型,AdaptAtt[22]是基于自适应的图像描述生成模型,NIC+WC+WA+RL[23]是基于图像特征动态建立与图像相关词汇表的模型,MLO/MLPF-LSTM+(BS)[24]是基于深度LSTM的模型,CACNN-GAN(ResNet-152)[25]是基于GAN[26]的模型,NIC+DS指在神经图像描述生成模型的基础上,编码阶段LSTM增加输入依存句法向量,而不添加图像结构注意力,NIC+DSSA指在神经图像描述生成模型的基础上,增加图像结构注意力,Top-5、Top-10分别指内容关键词分类器按概率大小取降序排名前5或前10的标签来计算内容重合度。
表 2 Flickr30K数据集的实验结果 Table 2 Experimental results on Flickr30K dataset
模型 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L | CIDEr | Len |
NIC+ATT(Baseline) | 62.84 | 39.00 | 25.07 | 17.52 | 17.98 | 44.57 | 30.18 | 11.06 |
AdaptAtt | 60.69 | 41.80 | 25.92 | 18.63 | 19.71 | 45.61 | 33.36 | |
NIC+WC+WA+RL | 24.50 | 21.50 | 51.60 | 58.40 | ||||
MLO/MLPF-LSTM+(BS) | 66.20 | 47.20 | 33.10 | 23.00 | 19.60 | |||
CACNN-GAN(ResNet-152) | 69.30 | 49.90 | 35.80 | 25.90 | 22.30 | |||
NIC+DS(Top-5) | 57.09 | 39.35 | 28.66 | 20.73 | 20.81 | 48.24 | 49.78 | 17.58 |
NIC+DSSA(Top-5) | 58.62 | 40.46 | 29.81 | 22.62 | 20.96 | 49.98 | 51.74 | 17.56 |
NIC+DS(Top-10) | 59.76 | 44.53 | 31.48 | 24.75 | 21.31 | 51.36 | 50.91 | 18.43 |
NIC+DSSA(Top-10) | 61.81 | 47.33 | 33.97 | 26.06 | 23.57 | 52.81 | 52.48 | 18.62 |
表选项
表 3 Flickr8K数据集的实验结果 Table 3 Experimental results on Flickr8K dataset
模型 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L | CIDEr | Len |
NIC+ATT(Baseline) | 60.32 | 37.88 | 24.66 | 16.33 | 18.48 | 46.16 | 34.99 | 11.17 |
NIC+DS(Top-10) | 57.76 | 41.16 | 30.70 | 27.78 | 19.54 | 48.81 | 36.69 | 14.47 |
NIC+DSSA(Top-10) | 59.45 | 45.86 | 36.05 | 29.36 | 21.92 | 50.06 | 40.24 | 15.72 |
表选项
表 4 Flickr8K-CN数据集的实验结果 Table 4 Experimental results on Flickr8K-CN dataset
模型 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L | CIDEr | Len |
NIC+ATT(Baseline) | 59.16 | 36.30 | 22.73 | 16.02 | 16.87 | 43.59 | 31.09 | 10.82 |
NIC+DS(Top-10) | 56.28 | 40.03 | 29.42 | 25.61 | 17.48 | 46.21 | 34.16 | 13.45 |
NIC+DSSA(Top-10) | 58.72 | 46.86 | 33.05 | 28.16 | 20.57 | 49.10 | 38.48 | 14.36 |
表选项
由表 2可知,本文模型NIC+DSSA除BLEU-1指标外,其他7种指标均优于NIC+ATT模型,尤其在BLEU-4与CIDEr指标上分别改善了8.54%和22.30%。由此可见,依存句法的使用可以提高模型对文本与图像结构信息的捕获能力。在CIDEr指标上,NIC+DSSA模型略低于NIC+WC+WA+RL模型,由于CIDEr指标计算得分时考虑到参考文本与模型生成文本的长度差,由文本平均长度Len可知,本文模型NIC+DSSA生成的句子较长,所以在CIDEr指标上不占优势。CACNN-GAN模型使用了ResNet-152网络提取图像特征,但由于在生成阶段不能很好地考虑到长距离的依赖关系,在BLEU-4指标上仍低于本文提出的模型。此外,由表 3和表 4的数据可知,本文提出的模型在中英文数据集上具有一定的泛化能力。
在3个实验数据集中,NIC+DS模型与NIC+DSSA模型在生成句子的平均长度接近的情况下,NIC+DSSA模型在各个指标上均好于NIC+DS模型,在BLEU-4指标上提高近1.5%。针对图像结构注意力,本文选取Flickr30K数据集中的一幅测试图像构建出2种模型对应的图像注意力在测试图像上的分布图,如图 3所示。
图 3 生成文本效果对比 Fig. 3 Comparison of generated captions |
图选项 |
由NIC+DSSA模型生成的图像注意力分布图与描述文本可知,除主句中的实体外,添加了图像结构注意力的NIC+DSSA模型捕捉到了其他图像实体间关系(<<“young woman”, “talk”, “man”>, “converse”, <“two other men”>>),且使用“while”将主句与从句连接起来;而NIC+DS模型生成的文本更注重图像中某个实体细节描述,如“black and white striped dress”,而忽略了图像实体间的关系,不能很好地在句式上体现出依存句法添加至模型后的优势。为了控制其他变量的影响,两者均输入相同的依存句法模板。
给定测试图像,本文模型应尽可能地提供符合图像内容实体之间实际句法关系的依存句法模板。在内容关键词分类器中, 若K值不同,模型为测试图像选择的依存句法模板可能不同。因此,本文研究了K取值对BLEU-4指标的影响,如图 4所示。
图 4 不同K值选取对实验结果的影响 Fig. 4 Experimental results affected by different K values |
图选项 |
由图 4可知,在K值为10时,模型在实验中得到了最好的图像描述文本生成效果,BLEU-4值最高。K取值较小时,分类器选择的图像描述标签较少,不能完整地概括一幅图像;K取值较大时,标签会同图像主题偏离而降低生成图像描述文本的准确性。无论K值过大还是过小,都会导致“假重合”情况发生,故本文K值为10。
当K值为10时,每个关键词标签可以较准确地描绘图像的不同侧面,当2幅图像的内容重合度较高时,描述文本中实体或事件高度相似。图 5给出了当K值为10时,计算2幅图像内容重合度的例子(此例内容重合度最大为55)。
图 5 K取10时分类效果 Fig. 5 Results of classification when K is 10 |
图选项 |
根据内容重合度,测试图像可以在训练图像集中匹配到与自身内容最相似的图像,由于在训练图像集中,每幅图像都有5个参考文本与之对应,因此本文模型可以将对应的5个依存句法模板依次输入到模型中,指导模型生成图像描述文本,在一定程度上增加了生成句子的多样性。
如图 6所示,本文提出的NIC+DSSA模型可以根据不同的依存句法模板生成不同的图像描述文本,且生成的文本(5)与参考文本(5)在句式上保持一致。
图 6 模型生成的文本多样性示例 Fig. 6 Example of diversity of captions generated by model |
图选项 |
3.3 深度学习模型可解释性分析 本节将进一步细粒度地分析本文模型如何根据输入图像与依存句法信息生成描述文本,使深度学习模型更具可解释性。
由图 7(a)可知,NIC+ATT模型在生成文本句的主体时,图像关注的区域较分散,不能很好地区分每个单词或词组对应图像区域的异同。而NIC+DSSA模型由于加入了依存句法信息中的结构关系,生成的每个单词或词组关注的图像区域可以清晰地分辨出差异,并具有一定的连续性,如图 7(b)所示。
图 7 图像注意力对比 Fig. 7 Comparison of image attention |
图选项 |
在图 7所示的2个生成文本中,NIC+ATT模型在生成图像注意力时,特别在词组“are gathered in”对应的图像区域中,关注的图像区域居中、分布较广且高度相似,因此,不能很好地捕获图像区域内部实体间关系,即在此图中仅识别出“parade”;而NIC+DSSA模型在生成图像注意力时,不同的图像区域间存在一定的差异性,而仅在描述事物的名词词组“brown shirt”、动词词组“standing up”或介词词组“the middle of”对应的图像区域分布较类似,符合人类分析图像的过程。
如图 8所示,根据相似图像,模型将得到5个依存句法模板。在图 8显示的图 7文本对应的依存句法模板中,第1个依存句法单元代表生成的文本在位置8上的单词“standing”应为该文本句的词根“ROOT”;第2个依存句法单元代表生成的文本在位置1上的单词“A”应为在位置2上的单词“man”的限定词“det”;第3个依存句法单元则代表生成的句子在位置2上的单词“man”应为在位置8上的单词“standing”的名词主语“nsubj”。由图 8可知,输入的依存句法通过图像结构注意力间接指导了描述文本生成,且将图像的区域间结构关系与文本中的依存关系对应。图 9给出了本文模型NIC+DSSA在Flickr8K数据集部分图像上的实验结果,体现了依存句法在模型生成图像描述文本中的指导作用。
图 8 相似图像和依存句法模板 Fig. 8 Similar image and dependency syntactic template |
图选项 |
图 9 基于依存句法的图像描述文本生成示例 Fig. 9 Examples of image captioning based on dependency syntax |
图选项 |
为分析模型生成文本时子句的使用情况,统计了测试阶段模型在Flickr30K数据集上生成描述文本连接词的使用情况,如表 5所示。本文模型由于依存句法信息的加入,在生成连接词方面表现能力较突出,很好地解释了其生成文本较长这一现象。
表 5 描述文本中连接词数量统计 Table 5 Statistics of conjunction numbers in captions
模型 | 连接词数量 |
NIC | 1 |
NIC+DSSA | 66 |
参考文本 | 58 |
表选项
4 结论 本文提出了一种基于依存句法的图像描述文本生成模型,将依存句法作为语法规则输入至图像结构注意力中,使模型在生成图像描述文本的过程中考虑到依存句法提供的词与词之间的依赖关系。
1) 验证了通过使用图像结构注意力加强模型对图像中实体间关系的学习理解能力。
2) 提出了一种通过提取图像内容关键词来计算图像内容重合度的方法,建立测试图像与训练图像集的映射关系,进而将测试图像与依存句法模板匹配。
3) 在Flickr30K、Flickr8K和Flickr8K-CN三个数据集上进行的大量实验表明,本文提出的模型在增加文本多样性和句法复杂度2个方面均有较好的表现。
此外,本文还通过模型生成图像描述文本的实例分析,解释了依存句法在本文提出的模型中如何指导文本生成及关注图像结构特征,增强了深度学习模型的可解释性。
在未来的工作中,仍有2个问题需要持续关注:①依存句法表示问题,目前使用的自注意力机制虽然可以较好地得到长距离的依赖关系表示,但其可解释性不高;②依存句法模板获取问题,本文提出的内容重合度计算方法旨在根据“ROOT”中心词识别内容相似的图像,但忽略了图像内容的深层含义如图像主题[27]等,有时无法得到最优的依存句法模板。
参考文献
[1] | XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//Proceedings of the 32nd International Conference on Machine Learning, 2015: 2048-2057. |
[2] | LU C, KRISHNA R, BERNSTEIN M S, et al. Visual relationship detection with language priors[C]//Proceedings of the 14th European Conference on Computer Vision, 2016: 852-869. |
[3] | REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems 28, 2015: 91-99. |
[4] | GUO Y, CHENG Z, NIE L, et al. Quantifying and alleviating the language prior problem in visual question answering[C]//Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2019: 75-84. |
[5] | ADITYA D, JYOTI A, LIWEI W, et al. Fast, diverse and accurate image captioning guided by part-of-speech[C]//Proceedings of the 32nd IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2019: 10695-10704. |
[6] | WANG Y, LIN Z, SHEN X, et al. Skeleton key: Image captioning by skeleton-attribute decomposition[C]//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 7272-7281. |
[7] | VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 5998-6008. |
[8] | SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems, 2014: 3104-3112. |
[9] | VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: Lessons learned from the 2015 MSCOCO image captioning challenge[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(4): 652-663. |
[10] | ZHU Z, XUE Z, YUAN Z. Topic-guided attention for image captioning[C]//Proceedings of the 25th IEEE International Conference on Image Processing. Piscataway: IEEE Press, 2018: 2615-2619. |
[11] | WANG T, HU H, HE C. Image caption with endogenous-exogenous attention[J]. Neural Processing Letters, 2019, 50(1): 431-443. DOI:10.1007/s11063-019-09979-7 |
[12] | LIU F, LIU Y, REN X, et al. Aligning visual regions and textual concepts: Learning fine-grained image representations for image captioning[EB/OL]. (2019-05-15)[2020-08-01]. https://arxiv.org/abs/1905.06139v1. |
[13] | FALENSKA A, KUHN J. The (non-) utility of structural features in BiLSTM-based dependency parsers[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019: 117-128. |
[14] | LI Z, PENG X, ZHANG M, et al. Semi-supervised domain adaptation for dependency parsing[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019: 2386-2395. |
[15] | WANG X, TU Z, WANG L, et al. Self-attention with structural position representations[EB/OL]. (2019-09-01)[2020-08-01]. https://arxiv.org/abs/1909.00383. |
[16] | HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778. |
[17] | CHRISTOPER D M, MIHAI S, JOHN B, et al. The stanfordCoreNLP natural language processing toolkit[C]//Proceedings of 52nd Annual Meeting of the Association for Computational Linguistics, 2014: 55-60. |
[18] | PAPINENI K, ROUKOS S, WARD T, et al. BLEU: A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, 2002: 311-318. |
[19] | CHOUEIRI T K, ESCUDIER B, POWLES T, et al. Cabozantinib versus everolimus in advanced renal cell carcinoma (METEOR): Final results from a randomised, open-label, phase 3 trial[J]. The Lancet Oncology, 2016, 17(7): 917-927. DOI:10.1016/S1470-2045(16)30107-3 |
[20] | LIN C Y. Rouge: A package for automatic evaluation of summaries[C]//Proceedings of the 42nd Annual Meeting of the Association for Computational Linguistics, 2004: 74-81. |
[21] | VEDANTAM R, ZITNICK C L, PARIKH D. CIDER: Consensus-based image description evaluation[C]//Proceedings of the 28th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2015: 4566-4575. |
[22] | LU J, XIONG C, PARIKH D, et al. Knowing when to look: Adaptive attention via a visual sentinel for image captioning[C]//Proceedings of the 30th IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 3242-3250. |
[23] | FAN Z, WEI Z, HUANG X, et al. Bridging by word: Image grounded vocabulary construction for visual captioning[C]//Proceedings of the International Conference on the Association for the Advance of Artificial Intelligence, 2019: 6514-6524. |
[24] | 汤鹏杰, 王瀚漓, 许恺晟. LSTM逐层多目标优化及多层概率融合的图像描述[J]. 自动化学报, 2018, 44(7): 1237-1249. TANG P J, WANG H L, XU K S. Multi-objective layer-wise optimization and multi-level probability fusion for image description generation using LSTM[J]. Acta Automatica Sinica, 2018, 44(7): 1237-1249. (in Chinese) |
[25] | 薛子育, 郭沛宇, 祝晓斌, 等. 一种基于生成式对抗网络的图像描述方法[J]. 软件学报, 2018, 29(2): 30-43. XUE Z Y, GUO P Y, ZHU X B, et al. Image description method based on generative adversarial networks[J]. Journal of Chinese Information Processing, 2018, 29(2): 30-43. (in Chinese) |
[26] | SALVARIS M, DEAN D, TOK W H, et al. Generative adversarial networks[EB/OL]. (2014-06-10)[2020-08-01]. https://arxiv.org/abs/1406.2661. |
[27] | LIU M, HU H, LI L, et al. Chinese image caption generation via visual attention and topic modeling[J/OL]. IEEE Transactions on Cybernetics, 2020(2020-06-22)[2020-08-01]. https://ieeexplore.ieee.org/document/9122435. |