以往的情感分析研究大多局限于单一的文本或视觉模态,然而,对于社交媒体进行情感分析来说,往往单一模态所表达的情感是不完整且具有局限性。因此,越来越多的研究者在对于社交媒体进行情感分析研究时,开始着眼于多模态[2-4]的方法。与此同时, 现有的多模态社交媒体情感分析研究仍存在以下问题:①不同模态特征融合的方法相对简单,造成多模态情感特征无法有效地融合;②社交媒体中用户发布的图文社交信息可能存在图文语义无关的情况,现有方法未对图文语义相关性进行筛选,若对图文语义无关的图文社交信息直接进行图文特征融合的情感分析,则会对情感分类的结果造成影响。
因此,对于解决目前多模态社交媒体情感分析研究存在的问题,本文主要有3个方面的贡献:
1) 将图像纳入RoBERTa[5]模型框架中,构建出语义对齐多模态RoBERTa (Semantic Alignment Multimodal RoBERTa,SAMRoBERTa)模型,该模型设计有图文语义对齐编码层,可以使图文信息相匹配的图像区域获得更多的权重信息,再把语义对齐后的图像特征与文本特征输入多模态编码层进行融合计算,从而使得图文特征能够有效地融合。
2) 在图文语义相关性数据集[6]上对SAMRoBERTa模型进行微调与训练,使得该模型中神经网络的权重参数适应于进行图文语义相关性分类任务,且将经过上述微调与训练的SAMRoBERTa模型称为语义相关性多模态RoBERTa (Semantic Relevance Multimodal RoBERTa,SRMRoBERTa)模型。因此,可以通过SRMRoBERTa模型对图文社交信息进行图文语义相关性的识别。
3) 针对多模态社交媒体情感分析任务,本文提出基于语义相关的多模态社交情感分析(Multimodal Social Sentiment Analysis based on Semantic Correlation,MSSA-SC)方法,该方法先通过SRMRoBERTa模型识别图文语义是否具有相关性,根据其识别结果,再选择对图文社交信息进行图文特征融合的多模态情感分类或者仅文本模态的情感分类。
1 相关工作 基于机器学习的方法需要大规模的语料数据集来给计算机进行学习,需要大量的人工标注数据。Xiao和Liang[7]将双向长短期记忆(Bi-directional Long Short Term Memory,BiLSTM) 模型用于对中文文本的情感分析,以原始中文文本的词嵌入(Word Embedding)为输入。Zheng等[8]使用BERT[9]模型对微博短文本进行情感分析,可以有效地提取语义特征,在预训练过程中,模型架构可以有效整合句子的语义特征,通过词嵌入、句子嵌入及位置嵌入将它们转换为具有上下文信息的特征向量。
Machajdik和Hanbury[10]的研究实现了提取与整合具有图像情感信息的低级特征,并将其用于图像情感分类中。Jindal和Singh[11]使用卷积神经网络(Convolutional Neural Network,CNN)构建图像情感预测框架,在大规模数据上进行预训练,以用于对象识别与进行迁移学习,并在人工标注的Flickr图像数据集上进行了实验。
在日益多样的信息传递媒介和目前较为成熟的自然语言处理技术支持下,多模态情感分析拥有巨大的研究空间与潜在价值。You等[12]利用视觉与文本信息联合进行情感分析,先对CNN模型进行微调以进行图像情感分析,再训练段落向量模型进行文本特征提取,将文本和图像特征整合在一起进行情感预测。Zhu等[13]提出通过合并视觉和文本信息来进行情感分类,所提模型基于双向循环神经网络(Bidirectional Recurrent Neural Network,BiRNN)并整合跨模式注意机制与语义嵌入。缪裕青等[14]提出将CNN模型在大规模图片数据集上进行预训练,再对其进行迁移,以微调的方式训练图片情感分类模型(Fine-tuned CNN,FCNN),通过将训练好的词向量输入BiLSTM中训练文本情感分类模型(Word-embedding Bidirectional LSTM,WBLSTM),通过决策融合的方法得到最终的图文情感结果。Zhao等[15]提出了基于图像和文本之间信息一致性的情感分析方法,先提取文本特征、图像特征及图文相似度特征,将这几种特征连接在一起输入到机器学习模型SVM(Support Vector Machine)中判断图文内容是否关联,根据其判断结果选择是否进行图文特征融合的情感分类。蔡国永等[16]对于社交媒体情感分类任务,提出了利用多模态深度多重判别性相关分析提升图文语义配准,另外,利用多模态注意力融合网络图文特征,以进一步优化社交媒体的情感分类效果。
2 方法描述 本文提出的MSSA-SC方法对图文社交信息进行图文语义相关性分类,若图文语义相关性分类结果为图文语义相关,则将图文社交信息输入到SAMRoBERTa模型中进行情感分类;若分类结果为图文语义无关,则仅将文本模态输入到RoBERTa模型中进行情感分类。MSSA-SC方法分为数据预处理、图文语义相关性分类模块及情感分类模块3个部分,如图 1所示。
图 1 MSSA-SC方法示意 Fig. 1 Schematic diagram of MSSA-SC method |
图选项 |
2.1 数据预处理 数据预处理是本文方法中的一个关键步骤,特别是对于来自社交媒体平台上用户生成的数据,其中数据是原始与非结构化的。因此,数据预处理这一步骤显得更加有必要。
在准备阶段,需要对来自微博的图文数据进行预处理,文本信息非常杂乱,并且有许多特殊字符,要进行文档切分、去停用词等操作。微博文本还有许多样板化的字符串,如“@”后面跟随的是微博用户名、“收起全文”及“网页链接”等。因此,对这些噪声信息要进行过滤操作。另外,微博图像的预处理包括去噪、消除光照不均及增强等。
2.2 图文语义相关性分类模块
2.2.1 图文关联的文本语义单元提取 图文关联的文本语义单元提取是图文社交信息在SAMRoBERTa模型与SRMRoBERTa模型中进行图文语义对齐的前提,图文关联的文本语义单元提取方法如图 2所示。
图 2 图文关联的文本语义单元提取方法架构 Fig. 2 Architecture of text semantic unit extraction method based on image-text correlation |
图选项 |
首先,使用TextRank[17]算法对文本提取文本语义单元;然后,对文本对应的图片使用2个经过预训练的基于CNN的图像分类模型ResNet[18]和Xception[19]分别提取图像中可信度最高的前5个语义标签,图 3即为ResNet和Xception分别识别图像后提取的语义标签;最后,使用Word2Vec[20]模型在大量微博文本语料上进行训练,利用训练好的Word2Vec词向量模型分别对文本语义单元和图像语义标签中的每个词生成300维的词向量,通过向量与向量之间的余弦距离可以计算文本语义单元中每项和对应图片的语义标签词之间的相似度。式(1)表示计算词向量间的余弦相似度,根据语义相似度权值从大到小排序后取前5项作为图文关联的文本语义单元。
(1) |
图 3 图像分类模型提取的语义标签 Fig. 3 Semantic tag extracted by image classification model |
图选项 |
式中:termi和termj分别对应于文本语义单元与图像标签词的300维词向量。
2.2.2 SRMRoBERTa模型 将图文社交信息里的图像纳入RoBERTa体系结构中,如图 4所示。具体来说,对于相关的图像I,图像I通过模型ResNet获得最后一个卷积层的输出。ResNet是在ImageNet图像数据集上训练的图像预训练模型,其本质上将原始图像分割成7×7=49个区域,每个区域用2 048维向量表示。具体公式为
(2) |
图 4 SAMRoBERTa和SRMRoBERTa模型结构 Fig. 4 Structure of SAMRoBERTa and SRMRoBERTa model |
图选项 |
式中:rs为图像被分割成49个区域后,其中一个区域上所提取的特征向量。
引入线性变换函数,使得视觉特征与文本特征具有相同的特征维度。
(3) |
式中:Ws∈R2 048为可学习的参数;VI为具有与文本特征相同维度的视觉特征。
为使图像区域与文本语义能够充分对齐,设计图文语义对齐(Image-Text Alignment,ITA)编码层,该图文语义对齐编码层先将图文关联的文本语义单元Trelated={t1, t2, …}输入到编码器中得出图文关联的文本语义单元特征向量:
(4) |
式中:d为特征向量中的横向维度;L为图文关联的文本语义单元的最大长度;Vrelated为RoBERTa模型对图文关联的文本语义单元提取的特征向量。
将得到的Vrelated向量作为图文语义对齐编码层自注意力机制(Self-Attention)[21]里的querys向量矩阵,将经过ResNet计算抽取的图像特征VI作为图文语义对齐编码层自注意力机制里的keys与values向量矩阵。因此,在图文语义对齐编码层中,图文关联的文本语义单元特征引导图像特征进行向量计算,从而使得图像特征中与文本语义相关的图像区域分配更多的权重信息,具体公式为
(5) |
式中:{WQ, WK, WV}∈Rdk×d为可学习参数。
图文语义对齐编码层与Transformer中的编码层类似,在图文语义对齐编码层自注意力机制之后采用一个全连接层与两层具有残差连接的层归一化,来获得图文对齐的视觉特征输出。
(6) |
(7) |
式中:OM为图文语义对齐编码层中计算的中间产物,是VI、Vrelated两个特征向量经过多头注意力机制后,将计算出的特征向量与Vrelated相加通过层归一化后再经过一层全连接层得到的特征向量;M为多头自注意力机制中自注意机制的个数;MLP代表全连接神经网络层; LN代表层归一化(Layer Normalization)。
通过图文语义对齐编码层获得最终的视觉特征向量。
(8) |
式中:VF∈Rd×M为视觉特征VI和图文关联的文本语义单元特征Vrelated同时输入到图文语义对齐编码层中计算所得的视觉特征向量。
与此同时,将文本输入至RoBERTa模型中得到文本特征向量,即VT=RoBERTa(T),再把VF与VT相连接输入到多模态编码层(Multimodal Encoder,ME)中。
(9) |
(10) |
将多模态编码层计算所输出的向量G输入到线性激活函数Softmax之中,以获得图文社交信息的情感分类结果。
(11) |
式中:W∈R(2)d×3为可学习权重参数。
由于Softmax输出结果是一个概率分布,需要衡量预测标签与真实标签间的差异,训练过程中的损失函数设定为最小化交叉熵(Cross Entropy),其公式如下:
(12) |
式中:w为神经网络所有训练参数;y为预测标签;
2.3 情感分类模块 情感分类模块根据图文语义相关性分类模块对于图文社交信息的图文语义相关性的分类结果,选择将图文模态输入到SAMRoBERTa模型进行图文特征融合的情感分类还是仅将文本模态输入到RoBERTa模型中进行文本情感分类。
由于SAMRoBERTa模型结构与SRMRoBER-Ta模型相同,对于图文社交信息的输入与计算方法亦与SRMRoBERTa模型一样,两者仅仅是神经网络中的权重参数与最后分类结果输出的预测标签不同,所以这里不再赘述SAMRoBERTa模型。
RoBERTa模型是基于BERT模型框架的鲁棒性预训练模型,其在模型神经网络架构方面没有改变BERT,改变的只是预训练的方法和模型中的权重参数。将文本T输入到RoBERTa模型中,捕获的文本全局信息由多头自注意力机制完成。另外,T会先经过嵌入层生成TW作为模型的输入。
(13) |
式中:{W′Q, W′K, W′V}∈Rdk×d为可学习参数。
多头自注意力机制是把单个自注意力机制串联起来,具体公式为
(14) |
式中:Wm∈R(m×dk)×d为可学习的权重参数。
将多头自注意力机制的输出结果输入到一个全连接层与两层具有残差连接的层归一化。
(15) |
(16) |
式中:OT为RoBERTa模型中编码层计算的间产物,是文本T经过多头注意力机制后,将计算出的特征向量与Vrelated相加通过层归一化后再经过一层全连接层得到的特征向量。
综上所述,将模型的编码器全都进行堆叠,第1个分词(即[CLS])的最终隐藏状态被输入到1个线性变换函数中进行情感分类。
3 实验 3.1 实验设置 本文方法中提出的图文语义相关性分类模型SRMRoBERTa是SAMRoBERTa模型在Liu等[6]提出的图文语义相关性数据集上进行微调与训练得到的。上述图文语义相关性数据集共有9 817个微博图文对,标签为N和P,N代表图像和文本语义不相关,P代表图像和文本语义具有相关性,该数据集的具体数据分布如表 1所示。
表 1 图文语义相关性数据集的数据分布 Table 1 Data distribution of image-text semantic correlation datasets
标签 | 微博图文对数 |
P | 7 442 |
N | 2 375 |
表选项
由于可以用于实验研究的公开中文图文情感数据集较少,从微博平台获取文本和对应的图片,微博平台允许一条微博可以配上多张图片,本文为便于研究只取文本对应的一张图片。获取的微博数据存在很多问题,如微博数据不完整、数据重复、图片及文本不合格等。在筛选不完整、数据重复和不合格的数据后,得到20 130对图文微博用于实验,再由5位标注者对其进行情感三分类标注工作。本文构建的微博图文情感分析数据集的数据分布如表 2所示。
表 2 微博图文情感分析数据集的数据分布 Table 2 Data distribution of image-text microblog sentiment analysis datasets
标签 | 测试样例 | 训练样例 |
积极 | 981 | 4 660 |
中性 | 2 404 | 9 567 |
消极 | 615 | 1 903 |
表选项
评价指标选取准确率(Accuracy)和Macro-F1值判断模型识别效果,具体公式为
(17) |
式中:accNumber为测试集中预测正确的数量;N为测试集中图文对的总数量。
(18) |
(19) |
(20) |
式中:TP为真正例;FP为假正例;FN为假负例。
通过式(20)得到三分类中每一类F1值,将所有F1值求平均,即得到Macro-F1值。
本文提出的SAMRoBERTa模型权重参数使用的是中文微调与训练好的RoBERTa-zh-base权重参数模型,本文模型与方法在NVIDIA GEFORCE RTX2080Ti GPU上运行,模型的实验参数设置如表 3所示。
表 3 实验参数设置 Table 3 Experimental parameter setting
参数 | 数值 |
最大句子长度 | 256 |
批处理个数 | 12 |
学习率 | 2×10-5 |
自注意力机制头数 | 6 |
预热学习率 | 0.1 |
全部样本训练次数 | 4.0 |
表选项
3.2 对比实验 ResNet[18]:该模型中深度残差网络可以较好地减小由于模型层数过深导致的模型梯度问题。
BiLSTM[8]:先用单词嵌入将单词或短语从词汇映射到低维空间中的实数向量,再输入到2个并行运行的LSTM组成的BiLSTM;一个在输入序列上,另一个在输入序列的反向上。此设置能够使隐藏层捕获到文本中过去和未来的语义信息。
BERT[9]:让BERT模型在短微博文本数据集上进行微调, 在预训练过程中,模型架构可以完全整合句子的语义特征和通过单词嵌入,句子嵌入和位置嵌入将它们转换为具有上下文信息的特征向量。
RoBERTa[5]:其是通过改进BERT预训练的方法和改进模型里的优化函数得到的模型。因此,该模型是BERT模型的优化版,且可以用BERT模型直接加载RoBERTa的权重参数。
Multi-CNN[22]:一种基于CNN的方法,2个单独的CNN架构分别用于学习文本特征和视觉特征,再将图文特征整合到一起输入到另一个CNN的模型架构中,来进行图文特征融合的情感分类。
MBERT (Multimodal BERT)[23]:将图像特征抽取部分融入到BERT的模型框架中,用预训练图像识别模型ResNet抽取图像的高级语义特征,文本则用BERT来提取语义特征,再将图像和文本特征整合输入到多模态编码层,使得2种模态特征充分对齐融合。
SAMRoBERTa:本文提出的基础模型,将图像模态融入到RoBERTa中的多模态模型,该模型有一个图文语义对齐编码层,可以使图文语义相匹配的图像区域获得更多的权重信息,将经过语义对齐后的图像特征和文本特征输入到多模态编码层进行融合计算。
MASS-SC:本文提出的基于语义相关的多模态社交情感分析方法,对图文社交信息进行图文语义相关性识别,若图文语义相关,则进行图文特征融合的多模态情感分类;若图文语义不相关,则仅对文本模态进行情感分类。
3.3 实验结果及分析 由表 4可知,本文提出的SAMRoBERTa模型与MSSA-SC方法在Accuracy和Macro-F1指标上均高于基准模型,尤其是MSSA-SC方法在Accuracy指标上的数值达到75.23%。
表 4 微博图文情感分类实验结果 Table 4 Experimental results of image-text microblog sentiment classification
模态 | 方法 | Accuracy/% | Macro-F1/% |
图像 | ResNet | 58.91 | 45.27 |
文本 | BiLSTM | 70.92 | 63.48 |
BERT | 73.25 | 68.43 | |
RoBERTa | 73.77 | 69.59 | |
图文 | Multi-CNN | 68.31 | 62.46 |
MBERT | 74.52 | 68.70 | |
SAMRoBERTa | 74.70 | 69.65 | |
MSSA-SC | 75.23 | 70.18 |
表选项
由此可知,本文提出的SAMRoBERTa中的图文语义对齐编码层可以有效提高图文对应的视觉区域特征权重,且多模态编码层亦可使得图文特征得到更充分的融合,因此,能够在多媒体社交媒体情感分析中得到比基准模型更好的分类效果。
MSSA-SC方法在Accuracy和Macro-F1指标上均高于SAMRoBERTa模型,MSSA-SC方法相较于SAMRoBERTa模型的区别在于:MSSA-SC方法先对图文社交信息进行图文语义相关性的识别工作,继而根据图文语义相关性的分类结果选择对图文社交信息进行图文模态融合情感分类亦或仅文本模态情感分类。然而,SAMRoBERTa模型是直接对图文社交信息进行图文模态融合的情感分类。由此可知,MSSA-SC方法中的图文语义相关性分类模块能有效筛选出在社交媒体中图文语义无关的情况。
3.4 实例分析 1) MBERT模型与SAMRoBERTa模型对比实例
两者都是图文特征融合的多模态情感分析模型,它们最大的不同之处是:对于图像模态特征的处理方面,MBERT的图像特征直接用ResNet提取出来,而SAMRoBERTa模型中对于图像模态先用ResNet提取出图像特征,再将图像特征和图文关联的语义单元一同输入到图文语义对齐编码层中,使得图文语义相关的图像区域分配到更多的权重值。2个模型的图像特征权重热力图如图 5所示,其中,左边是实际的图文社交信息,文本中标有下划线的词:加油站、车与香瓜是图文关联的语义单元;中间是MBERT模型的图像特征权重热力图;右边是SAMRoBERTa模型的图像特征权重热力图。明显看出,SAMRoBERTa模型中的图像特征经过图文语义对齐编码层中图文关联的语义单元特征的指导,权重分布更加集中于加油站、车与香瓜的区域。
图 5 图文社交信息的图像特征权重热力图 Fig. 5 Heat map of image feature weight of |
图选项 |
2) SAMRoBERTa模型与MSSA-SC方法对比实例
表 5显示了本文进行实验的图文情感分析数据集中的一个实例。该实例图文数据实际情感标签为消极,进行图文语义相关性分类,预测出来的结果是图文语义不相关,SAMRoBERTa模型对其直接进行图文融合的情感分类结果为中性,与实际情感标签不一致,这是由于图片上的人物呈现出来的是一个“微笑”表情,而文本表达出来的情感语义是消极的,由于图文语义的互斥,对图文信息进行融合导致情感分类的不准确,而对这个图文数据使用本文的MSSA-SC方法得出的情感分类结果为消极,与实际情感标签一致,该方法先对图文数据实例进行语义相关性分类为图文语义无关,再对其仅使用文本数据输入到RoBERTa中进行文本情感分类。
表 5 图文情感分析数据集中的图文数据实例 Table 5 Image-text samples from image-text sentiment analysis dataset
图文数据实例 | 实际情感标签 | SRMRoBERTa图文语义相关性分类 |
消极 | 图文语义不相关 |
表选项
4 结论 1) 本文针对多模态社交媒体上的情感分析任务提出MSSA-SC方法,并在真实社交媒体数据集上进行了对比实验,MSSA-SC方法的实验结果验证了其可行性与有效性。
2) 在真实社交媒体数据集上,本文提出的MSSA-SC方法与SAMRoBERTa模型进行了消融实验,MSSA-SC方法在Accuracy与Macro-F1指标上相较于SAMRoBERTa模型分别提升0.53%和0.53%,由此验证了图文社交信息上确实存在图文语义无关的情况,且这种情况会对情感分类结果造成影响,而MSSA-SC方法中的SRMRoBERTa模型则可将图文语义无关的图文社交信息识别出来。
在未来对于社交媒体上情感分析的研究中:
1) 继续沿着图文语义相关性分类的方向进行研究,找到更加高效图文语义相关性分类方法。
2) 研究更好的特征融合方法以进一步提高多模态特征融合的性能。
3) 专门收集图片与文本语义不一致,但实际表达的内容是互补或者相反的图文社交信息,以此来训练与修改模型。
参考文献
[1] | 王英, 龚花萍. 基于情感维度的大数据网络舆情情感倾向性分析研究-以"南昌大学自主保洁"微博舆情事件为例[J]. 情报科学, 2017, 35(4): 40-45. WANG Y, GONG H P. Research on the sentiment tendency of big data network public opinion sentiment based on the sentiment dimension-Taking the "Nanchang University Independent Cleaning" Weibo public opinion event as an example[J]. Information Science, 2017, 35(4): 40-45. (in Chinese) |
[2] | SENG J K, ANG K L. Multimodal emotion and sentiment modeling from unstructured big data: Challenges, architecture & techniques[J]. IEEE Access, 2019, 7: 90982-90998. DOI:10.1109/ACCESS.2019.2926751 |
[3] | GHOSAL D, AKHTAR S, CHAUHAN D, et al. Contextual inter-modal attention for multi-modal sentiment analysis[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL Press, 2018: 3454-3466. |
[4] | NIE L, WANG W, HONG R, et al. Multimodal dialog system: Generating responses via adaptive decoders[C]//Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM Press, 2019: 1098-1106. |
[5] | LIU Y, OTT M, GOYAL N, et al. RoBERTa: A robustly optimized BERT pretraining approach[EB/OL]. (2019-07-26)[2020-08-01]. https://arxiv.org/abs/1907.11692. |
[6] | LIU M, ZHANG L, LIU Y, et al. Recognizing semantic correlation in image-text Weibo via feature space mapping[J]. Computer Vision and Image Understanding, 2017, 163: 58-66. DOI:10.1016/j.cviu.2017.04.012 |
[7] | XIAO Z, LIANG P. Chinese sentiment analysis using bidirectional LSTM with word embedding[C]//International Conference on Cloud Computing and Security. Berlin: Springer, 2016: 601-610. |
[8] | ZHENG J, CHEN X, DU Y, et al. Short text sentiment analysis of micro-blog based on BERT[C]//MUE 2019, FutureTech 2019: Advanced Multimedia and Ubiquitous Engineering. Berlin: Springer, 2019: 390-396. |
[9] | DEVLIN J, CHANG M, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[EB/OL]. (2018-10-11)[2020-08-01]. https: //arxiv.org/abs/1810.04805. |
[10] | MACHAJDIK J, HANBURY A. Affective image classification using features inspired by psychology and art theory[C]//Proceedings of the 18th ACM International Conference on Multimedia. New York: ACM Press, 2010: 83-92. |
[11] | JINDAL S, SINGH S. Image sentiment analysis using deep convolutional neural networks with domain specific fine tuning[C]//2015 International Conference on Information Processing. Piscataway: IEEE Press, 2015: 447-451. |
[12] | YOU Q, LUO J, JIN H, et al. Joint visual-textual sentiment analysis with deep neural networks[C]//Proceedings of the 23rd ACM International Conference on Multimedia. New York: ACM Press, 2015: 1071-1074. |
[13] | ZHU X, CAO B, XU S, et al. Joint visual-textual sentiment analysis based on cross-modality attention mechanism[C]//Proceedings of the International Conference on Multimedia Modeling. Berlin: Springer, 2019: 264-276. |
[14] | 缪裕青, 汪俊宏, 刘同来, 等. 图文融合的微博情感分析方法[J]. 计算机工程与设计, 2019, 40(4): 1099-1105. MIAO Y Q, WANG J H, LIU T L, et al. Joint visual-textual approach for microblog sentiment analysis[J]. Computer Engineering and Design, 2019, 40(4): 1099-1105. (in Chinese) |
[15] | ZHAO Z Y, ZHU H Y, XUE Z H, et al. An image-text consistency driven multimodal sentiment analysis approach for social media[J]. Information Processing and Management, 2019, 56(6): 102097. DOI:10.1016/j.ipm.2019.102097 |
[16] | 蔡国永, 吕光瑞, 徐智. 基于层次化深度关联融合网络的社交媒体情感分类[J]. 计算机研究与发展, 2019, 56(6): 1312-1324. CAI G Y, LV G R, XU Z. A hierarchical deep correlation fusion network for sentiment classification in social media[J]. Journal of Computer Research and Development, 2019, 56(6): 1312-1324. (in Chinese) |
[17] | LI W, ZHAO J. TextRank algorithm by exploiting Wikipedia for short text keywords extraction[C]//2016 3rd International Conference on Information Science and Control Engineering. Piscataway: IEEE Press, 2016: 683-686. |
[18] | HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2016: 770-778. |
[19] | CHOLLET F. Xception: Deep learning with depthwise separable convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE Press, 2017: 1251-1258. |
[20] | MIKOLOV T, CHEN K, CORRADO G S, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-01-16)[2020-08-01]. https://arxiv.org/abs/1301.3781. |
[21] | VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 5998-6008. |
[22] | CAI G, XIA B. Convolutional neural networks for multimedia sentiment analysis[C]//NLPCC 2015: Natural Language Processing and Chinese Computing. Berlin: Springer, 2015: 159-167. |
[23] | YU J, JIANG J. Adapting BERT for target-oriented multimodal sentiment classification[C]//Proceedings of the 28th International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann, 2019: 5408-5414. |