删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

基于句法结构迁移和领域融合的跨领域情感分类

本站小编 Free考研考试/2023-11-25

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="https://cdn.bootcdn.net/ajax/libs/mathjax/2.7.9/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>赵传君1,2, 武美龄1, 申利华3, 上官学奎3, 王彦婕3, 李杰1, 王素格4, 李德玉4
1. 山西财经大学 信息学院, 太原 030006;
2. 山西财经大学 经济大数据山西省实验室, 太原 030006;
3. 山西省信息技术应用创新工程研究中心, 太原 030006;
4. 山西大学 计算机与信息技术学院, 太原 030006
收稿日期:2022-12-21
基金项目:国家自然科学基金资助项目(61906110, 62076158, 62072294); 教育部人文社科项目(22YJAZH092); 山西省高等学校哲学社会科学研究项目(2021W058); 山西省研究生优秀创新项目(2022Y535)
作者简介:赵传君(1986-), 男, 副教授, E-mail: zhaochj@sxufe.edu.cn

摘要:用于文本情感分析的深度学习模型如递归神经网络等参数较多, 因此需要大量高质量标记训练数据对模型进行训练和优化。在实际应用中, 特定领域难以获取高质量带情感标签评论数据。在跨领域文本情感分类任务中, 针对不同领域数据分布差异性, 提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法, 可以解决特定领域对带标签数据依赖问题。句法结构迁移方面, 将依存语法特征加入到递归神经网络中, 设计了一种可迁移的依存句法递归神经网络模型, 通过句法结构迁移有效地迁移跨领域结构信息, 为情感迁移提供支撑。领域融合方面, 在传统的最大均值差异领域度量方法上细化了跨领域同类别距离度量信息。通过约束源领域和目标领域的分布, 可以保证2个领域距离在学习过程中尽可能减小, 有效地提取领域通用特征。实验结果表明, 该方法比已有方法有效提高了跨领域情感分类准确率。
关键词:跨领域情感分类句法结构迁移最小距离约束深度迁移学习
Cross-domain sentiment classification based on syntactic structure transfer and domain fusion
ZHAO Chuanjun1,2, WU Meiling1, SHEN Lihua3, SHANGGUAN Xuekui3, WANG Yanjie3, LI Jie1, WANG Suge4, LI Deyu4
1. School of Information, Shanxi University of Finance and Economics, Taiyuan 030006, China;
2. Economic Big Data Shanxi Province Key Laboratory, Shanxi University of Finance and Economics, Taiyuan 030006, China;
3. Shanxi Information Technology Application Innovation Engineering Research Center, Taiyuan 030006, China;
4. School of Computer and Information Technology, Shanxi University, Taiyuan 030006, China

Abstract: [Objective] Deep learning models for text sentiment analysis, such as recurrent neural networks, often require many parameters and a large amount of high-quality labeled training data to effectively train and optimize recurrent neural networks. However, obtaining domain-specific high-quality sentiment-labeled data is a challenging task in practical applications. This study proposes a cross-domain text sentiment classification method based on syntactic structure transfer and domain fusion (SSTDF) to address the domain-invariant learning and distribution distance difference metric problems. This method can effectively alleviate the dependence on domain-specific annotated data due to the difference in the data distribution among different domains. [Methods] A method combining SSTDF was proposed in this study to solve the problem of cross-domain sentiment classification. Dependent syntactic features are introduced into the recurrent neural network for syntactic structure transfer for designing a migratable dependent syntactic recurrent neural network model. Furthermore, a parameter transfer strategy is employed to transfer syntactic structure information across domains efficiently for supporting sentiment transfer. The conditional maximum mean discrepancy distance metric is used in domain fusion to quantify the distribution differences between the source and target domains and further refine the cross-domain same-category distance metric information. By constraining the distributions of source and target domains, domain variable features are effectively extracted to maximize the sharing of sentiment information between source and target domains. In this paper, we used a joint optimization and training approach to address cross-domain sentiment classification. Specifically, the sentiment classification loss of source and target domains is minimized, and their fusion losses are fully considered in the joint optimization process. Hence, the generalization performance of the model and classification accuracy of the cross-domain sentiment classification task are considerably improved. [Results] The dataset used in this study is the sentiment classification dataset of Amazon English online reviews, which has been widely used in cross-domain sentiment classification studies; furthermore, it contains four domains—B (Books), D (DVD), E (Electronic), and K (Kitchen)—each with 1 000 positive and negative reviews. The experimental results show that the accuracy of the SSTDF method is higher than the baseline method, achieving 0.844, 0.830, and 0.837 for average accuracy, recall, and F1 values, respectively. Fine-tuning allows the fast convergence of the network, thereby improving its transfer efficiency. [Conclusions] Finally, we used deep transfer learning methods to solve the task of cross-domain text sentiment classification from the perspective of cross-domain syntactic structure consistency learning. A recurrent neural network model that integrates syntactic structure information is used; additionally, a domain minimum distance constraint is added to the syntactic structure transfer process to ensure that the distance between the source and target domains is as similar as possible during the learning process. The effectiveness of the proposed method is finally verified using experimental results. The next step is to increase the number of experimental and neutral samples to validate the proposed method on a larger dataset. Furthermore, a more fine-grained aspect-level cross-domain sentiment analysis will be attempted in the future.
Key words: cross-domain sentiment classificationsyntactic structure transferminimum distance constraintdeep transfer learning
深度学习模型如递归神经网络(recursive neural networks,ReNN)等在文本情感分析任务上取得了优异的结果[1]。为了保证深度学习分类模型的准确性和可靠性,往往需要足够数量的带标签训练样本,且要求训练样本集与测试样本集是独立同分布的[2]。但在实际应用中发现这2个条件往往无法同时满足,特定的领域往往缺乏足够数量的带标签数据,或者可用的训练数据来自不同分布的异构领域。跨领域情感分类(cross-domain sentiment classification,CDSC)通过源领域到目标领域的情感迁移,实现目标领域不带标签数据的情感分类任务,是自然语言处理任务中的重要分支之一[3, 4]
本文中,领域(domain)即指现实生活中通常所说具有相似主题文本的集合,如电子(electronic)、书籍(books)和厨房用品(kitchen)等[5]。不同领域数据分布存在差异鸿沟,同时情感的表达具有领域依赖性,同一个情感词或者短语在不同领域中的情感极性可能是不同的[6]。在文本情感分类任务中,大规模文本数据的涌现与特定小众领域缺乏标注的矛盾,导致了跨领域统计异构性高、标注样本稀少和过拟合等问题[7]。因此,现有的深度学习模型需要有效利用其他领域的带标签数据,并解决对于领域内标注样本的依赖问题,提高跨领域的泛化能力。绝大多数情感分析方法把深度学习模型看作是端到端的处理过程,忽视了对情感表达尤其是情感传播的内部机制和原理的研究。跨领域情感分类关注可迁移的深度学习情感分析模型和更深层次的情感语义理解[8]
许多自然语言处理任务可以共享关于语言的常识如语言表示、词性信息和句法结构等。句法分析的主要任务是识别出句子所包含的句法成分以及这些成分之间的关系,一般以依存句法树(dependency parse tree)来表示句法分析的结果。依存句法分析(dependency parsing)是指识别语句中词与词之间的依存关系,并揭示其句法结构,包括主谓关系、动宾关系、核心关系等。依存句法分析是自然语言处理的核心技术,是对语言进行深层次理解的基石[9]。电子和书籍2个领域各1个句子的语义依存分析(semantic dependence analysis,SDA)结果如图 1所示,其中NOUN为名词,AUX为系动词,PART为分词,ADV为副词,ADJ为形容词,PUNCT为标点符号标签,PRON为代词,nsubj为名词主语修饰,cop为系动词修饰,advmod为状语修饰,punct为标点符号修饰。由图 1可见,尽管不同领域使用的情感词不同,但不同领域中句式相同句子的语义依存分析结果是非常相似的,即不同领域之间存在语义一致性,因此可以共享不同领域之间的句法结构信息,迁移相同句法规则下的语义信息。
图 1 电子和书籍2个领域各1个句子的SDA结果
图选项





语言是有层次结构的,低层级元素组合构建高层级元素[10]。同时,人类自然语言的语义具有可组合性,词语可以组成句子,而更高层的语义取决于底层的语义以及它们的组合方式[11]。因此可以把一个依存句法树结构信息最终编码为一个文档向量。本文提出的依存句法递归神经网络模型(dependency parsing recursive neural network model)可以对句子的句法结构信息建模,输出文本的情感标签。
根据不同领域之间的语义一致性,句法结构信息一致性学习和跨领域迁移直接影响跨领域情感迁移的精度和效率,因此领域一致性学习是关键问题[12-13]。此外,不同领域的相似度度量可以衡量领域间的分布差异,指导模型寻找领域一致性的特征表示,因此如何实现跨领域的分布差异度量也是关键问题。
针对以上两点问题,本文利用跨领域语义一致性,提出了一种基于句法结构迁移和领域融合(syntactic structure transfer and domain fusion,SSTDF)的跨领域文本情感分类方法。可迁移的依存句法递归神经网络模型通过句法结构建模提取领域情感特征,并且句法结构和模型参数可以跨领域共享。在最小距离约束上,使用条件最大均值差异(conditional maximum mean discrepancy,CMMD)距离度量方式,保证在学习过程中提取领域通用特征。并在亚马逊公司跨领域情感分类数据集(https://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html)上进行了实验验证。
1 相关工作1.1 深度迁移学习方法近年来,迁移学习中的子领域“深度迁移学习(deep transfer learning,DTL)”已经得到了广泛的关注和研究,特别是在跨领域文本情感分类任务上取得了很大成功[14]。一般地,深度迁移学习用于跨领域文本情感分类任务主要分为2个步骤:首先选取合适的深度情感语义组合方法,然后选择合适的深度情感迁移学习算法迁移相关的情感知识。已有很多****将深度迁移学习应用于跨领域文本情感分类任务。Tan等[15]对于深度迁移学习技术进行了总结,并将深度迁移学习分为4类,分别是基于实例、基于映射、基于网络和基于对抗的深度迁移学习方法。Zhao等[16]针对短文本跨领域情感分类任务提出了一种两阶段的双向长短时记忆模型和参数迁移框架。Zhou等[17]提出了一种双向迁移深度神经网络,迁移源领域的样本到目标领域中,同时迁移目标领域的样本到源领域中。针对情感分析任务的特定词嵌入,Dong等[18]探索了利用额外的数据加入到情感分析的深度神经网络中,并发现基于卷积神经网络对偶模块的记忆网络可以取得更好的泛化能力。Wei等[19]使用大规模亚马逊网站产品评论辅助跨领域数据集,提出了一种两层的卷积神经网络用于跨领域的产品评论分类任务。实验表明此方法展示了对于跨领域的产品评论分类任务深度神经网络有很好的可迁移性。Glorot等[20]提出了一种深度学习的策略解决情感分类器的领域适应性问题。Yu等[21]利用神经网络架构研究跨领域的情感分类问题,借鉴结构一致化学习策略,利用2个辅助的任务帮助引入句子嵌入在跨领域情感分类表现良好。
1.2 最大均值差异度量方法在领域适应过程中,可以在学习过程中加入领域相似度度量,保证在学习过程中2个领域接近。度量不同领域距离的一种比较流行的方法是最大均值差异(maximum mean discrepancies,MMD)度量方法及其变体方法[22]。MMD度量在再生Hilbert空间中2个分布的距离,是一种核学习方法,仅考虑了源领域和目标领域的整体均值接近。MMD度量方法被有效应用于迁移学习和领域适应任务。例如,Long等[23]提出了一种联合分布适应方法,使用MMD距离计算边缘分布和条件分布的差异。Long等[24]还提出了一种新的深度适应网络架构,将卷积神经网络推广到领域适应场景,提出了多核MMD,并进行分层的迁移适配。为了解决分布适应问题,Wang等[25]提出了一种称为平衡分布适应的迁移学习方法,可以自适应地利用边际和条件分布差异的重要性,采用MMD来根据经验估计2种分布差异。应对不同领域特征分布的巨大差异,Duan等[26]提出了领域转移多核学习方法,通过最小化结构风险函数和来自辅助域和目标域的标记和未标记样本之间的分布不匹配,同时学习核函数和鲁棒分类器。MMD度量方法也被应用于跨领域情感分类任务,例如Zhao等[10]针对跨领域情感分类任务对MMD度量进行了改进,引入了同一个领域内不同类的差异度和类内的紧致程度。考虑了不同领域映射后的边际分布距离,并根据此原则设计了深度领域融合损失函数。Zhu等[27]修改了MMD来测量类条件分布之间的距离,提出条件最大均值差异(conditional maximum mean discrepancy,CMMD)并集成到深度神经网络中,构成多表示适应性网络(multi-representation adaptation networks,MRAN),并应用到跨领域图像分类任务。
2 句法结构迁移和领域融合方法2.1 符号定义本文中,D表示领域数据集,dD表示评论文本,s为评论文本中的一个句子,并由一系列词组成。词wi是低维连续实值向量,wi=(wi1, wi2, …, wim),m为词向量维度。(x, y)为训练样本对,y是训练样本x的情感标签,yYY={Positive, Negative}是情感类别标签集合。
源领域数据集记为DS={xi, yi}i=1NS,目标领域带标签数据集记为DTL={xj, yj}j=1NTL,目标领域测试样本集记为DTU={xj}j=1NTU,目标领域数据集记为DT=DTLDTU。在本文中,DSDT的联合概率分布是不一致的,即PS(x, y)≠PT(x, y)。
2.2 基本框架在本文跨领域情感迁移的过程中,主要存在以下2个问题:
1) 领域共享机制和一致性学习问题,即如何设计融合句法结构的递归神经网络模型,并实现句法结构信息的跨领域共享和相同句法规则下的语义信息的迁移;
2) 跨领域分布差异度量问题,即如何有效度量领域分布之间的距离,并在学习过程中加入最小距离约束。
本文提出了基于句法结构迁移和领域融合的跨领域情感分类方法。基本框架如图 2所示,包括了依存句法递归神经网络模型、参数迁移策略、领域融合策略,联合学习和优化过程。输入为目标领域不带标签数据DTU,输出其预测情感标签。
图 2 基于句法结构迁移和领域融合的跨领域文本情感分类框架
图选项





针对领域共享机制和一致性学习问题,首先将依存语法特征加入到ReNN结构中,设计一种可迁移的依存句法ReNN模型。在此模型中,输入为DS或者DTL,递归神经网络层后是Softmax层,输出为情感分类标签。同时,句法结构信息和模型参数信息可以跨领域共享。
针对跨领域分布差异度量问题,使用CMMD距离,更细致地考虑了不同领域间相同类别间的分布差异。递归神经网络层和Softmax层之间加入了领域融合层。通过约束源领域和目标领域的分布,以领域融合的方式实现最大化源领域和目标领域情感信息之间的共享。
2.3 依存句法ReNN模型根据不同领域之间的句法结构一致性,不同领域的句子可以共享相似的句法结构,迁移相同句法规则下的语义信息,提出了一种可迁移的依存句法ReNN模型。采用ReNN的形式将句子的依存句法信息加入到篇章级情感分析中,使得模型能够利用依存句法中有用的信息,达到更好的情感分析效果。此模型可以有效地捕捉句子结构信息,并且可以解决长距离依赖和负面修饰关系的问题。
依存关系集合记为R,包含了主谓关系(SBV)、动宾关系(VOB)、间宾关系(IOB)、定中关系(ATT)、状中结构(ADV)等。句子s的依存句法树为一棵有向树G=(V, A),词的集合为VA={(wi, rij, wj)}是词及依存关系的集合,wi, wjVwiwj的依存关系为rijwi的词性向量记为ci,词性向量和词向量的拼接ciwi可以强化词的词性特点,比如副词“very”,字面意思是“用于强调”。
考虑含有n个词w1, w2, …, wn组成的句子的依存句法树T。在此依存句法树结构中,子节点w1w2的父节点为
$\boldsymbol{g}=\tanh \left(\boldsymbol{W} \cdot\left[\boldsymbol{c}_1 \boldsymbol{w}_1 ; \boldsymbol{c}_2 \boldsymbol{w}_2 ; \boldsymbol{e}\right]+b\right)$ (1)
其中:tanh为非线性激活函数,W为参数,ew1w2之间的语义依存关系向量,bR为偏置项,Wb在所有的节点都是共享的。
根据以上操作可以得到递归后的矩阵为G=(g1, g2, …, gn)。池化层使用Max-over-pooling的方法,池化后的向量为
$\hat{\boldsymbol{g}}_k=\max \left\{\boldsymbol{g}_k, \boldsymbol{g}_{k+1}, \cdots, \boldsymbol{g}_{k+h-1}\right\}$ (2)
其中:h是一个滑动窗口的大小,k=1, 2, …, n-h+1。按照自下而上的顺序结构得到的特征矩阵为$\boldsymbol{Z}=\left(\hat{\boldsymbol{g}}_1, \hat{\boldsymbol{g}}_2, \cdots, \hat{\boldsymbol{g}}_{n-h+1}\right) $。最后通过全连接层的方式连接到情感标签y
$y=\operatorname{softmax}\left(\widetilde{\boldsymbol{w}}^{\mathrm{T}} \cdot \boldsymbol{Z}+\widetilde{b}\right) .$ (3)
其中:$ \widetilde{\boldsymbol{w}}$为全连接层参数,$\widetilde{b} $为偏置项。
2.4 句法结构迁移策略图 2中源领域网络到目标领域网络的句法结构迁移策略主要有以下3个步骤:
1) 在源领域网络中使用大规模训练数据集DS训练依存句法ReNN,称之为源网络(source network);将ReNN当作特征提取器,递归层所学到的特征即为基础共享特征提取层;
2) 使用训练好的源网络初始化目标领域依存句法递归神经网络,称之为目标网络(target network),源网络中依存句法ReNN结构和连接参数被整体迁移到目标网络,目标网络待初始化的层要与源网络的层的名字、类型以及层的设置参数等均相同,目标网络Softmax层单独初始化;
3) 使用参数微调更新目标领域带标签数据DTL训练目标网络的参数,微调最后一层前的所有层的参数,对于进行参数更新的层,学习率减小为原来的1/10;而对于Softmax层学习率则增加到原来的10倍,加快了学习速率。
2.5 领域融合策略在跨领域情感分类问题中,源领域的联合概率分布PS(x, y)和目标领域的联合概率分布PT(x, y)是不一致的,希望经过再生核Hilbert空间(reproducing kernel Hilbert space,RKHS)映射后源领域和目标领域的分布尽可能地相似,即PS(x, y)≈PT(x, y)。
传统的MMD方法对DSDT度量为
$\begin{gathered}\operatorname{MMD}\left(D_{\mathrm{S}}, D_{\mathrm{T}}\right)= \\\left\|\frac{1}{\left|D_{\mathrm{S}}\right|} \sum\limits_{x_i \in D_{\mathrm{S}}} \varphi\left(x_i\right)-\frac{1}{\left|D_{\mathrm{T}}\right|} \sum\limits_{x_j \in D_{\mathrm{T}}} \varphi\left(x_j\right)\right\|_{\mathrm{H}}^2 .\end{gathered}$ (4)
本文使用CMMD距离度量源领域和目标领域分布差异,具体为源领域及目标领域的正面样本集均值距离和负面样本集均值距离之和:
$\begin{gathered}\operatorname{CMMD}\left(D_{\mathrm{S}}, D_{\mathrm{T}}\right)= \\\left\|\frac{1}{\left|D_{\mathrm{S}}^{\mathrm{pos}}\right|} \sum\limits_{x_i \in D_{\mathrm{S}}^{\text {pos }}} \varphi\left(x_i\right)-\frac{1}{\left|D_{\mathrm{T}}^{\text {pos }}\right|} \sum\limits_{x_j \in D_{\mathrm{T}}^{\text {pos }}} \varphi\left(x_j\right)\right\|_{\mathrm{H}}^2+ \\\left\|\frac{1}{\left|D_{\mathrm{S}}^{\mathrm{neg}}\right|} \sum\limits_{x_i \in D_{\mathrm{S}}^{\text {neg }}} \varphi\left(x_i\right)-\frac{1}{\left|D_{\mathrm{T}}^{\mathrm{neg}}\right|} \sum\limits_{x_j \in D_{\mathrm{T}}^{\text {neg }}} \varphi\left(x_j\right)\right\|_{\mathrm{H}}^2 .\end{gathered}$ (5)
其中:DSposDSneg分别为DS中正面样本集和负面样本集,DTposDTnegDT中正面样本集和负面样本集。
2.6 联合学习和优化过程使用DSDTL分别训练依存句法递归神经网络和Softmax层的参数,在Softmax层之前加入领域融合层,并在目标网络执行参数微调策略。在联合优化过程中,通过最小化源领域和目标领域的情感分类损失,同时考虑源领域和目标领域的领域融合损失,将两者结合起来的优化目标如下:
$\text { Loss }=L_{\mathrm{S}}+\alpha L_{\mathrm{T}}+\beta \operatorname{CMMD}\left(D_{\mathrm{S}}, D_{\mathrm{T}}\right) .$ (6)
其中:LS为源领域情感分类损失,LT为目标领域情感分类损失,α∈[0, 1]和β∈[0, 1]分别目标领域分类损失和领域融合损失的适应性权重。
根据此损失函数设计参数优化函数为
$\min \limits_\theta \operatorname{coss}=\min \limits_\theta\left(L_{\mathrm{S}}+\alpha L_{\mathrm{T}}+\beta \operatorname{CMMD}\left(D_{\mathrm{S}}, D_{\mathrm{T}}\right)\right) .$ (7)
其中:θ为参数集,包含了源领域和目标领域依存句法递归神经网络模型参数和Softmax层参数、MMD空间映射参数等。
在优化完成后,输入目标领域不带标签数据DTU到模型中,输出其预测的情感类别。
3 实验设置3.1 数据集本文采用的数据集为已有跨领域情感分类研究中使用比较多的亚马逊英文在线评论情感分类数据集,包含4个领域,分别是B(books)、D(DVD)、E(electronic)和K(kitchen),每个领域正面和负面评论各有1 000个。本文选择其中1个领域为源领域DS,其他3个领域作为目标领域DT,选择目标领域中少量(20%)的数据为带标签数据集DTL
3.2 参数设置依存句法分析方面,本文使用哈工大社会计算与信息检索研究中心研发的“语言技术平台(LTP)”提供的依存句法分析工具(https://github.com/HIT-SCIR/ltp)对语料进行依存句法分析,具体依存句法关系类型和标签见LTP使用指南依存句法关系部分(http://ltp.ai/docs/appendix.html)。使用GloVe方法[28]已经训练好的词向量,维度为300维。采用随机梯度下降方法训练依存句法递归神经网络参数,其中源网络学习率设置为0.001,批量数据样本数为64,Dropout率设置为0.5,迭代轮次数(epoch)设置为20,源网络迭代次数为1 600。因为DTL训练数据只占DS训练数据的20%,目标网络学习率为0.000 1,目标网络迭代次数为340。设置损失函数中α=0.5,β=0.7。
3.3 对比方法本文方法与以下方法比较:
1) GAdaBEL方法。针对目标领域带标签数据偏少的问题,赵传君[6]等综合运用数据分组、AdaBoost和集成学习等策略与技术,提出了一种基于分组提升集成的跨领域文本情感分类方法。
2) DSR(dictionary based sparse representation for domain adaptation)方法[29]。Mehrotra等针对有监督领域适应任务,提出了一个基于自学学习的框架,该框架利用K-SVD算法以无监督的方式学习数据的稀疏表示。
3) DTL(deep transfer learning)方法[16]。Zhao等提出了社会媒体跨领域情感分类深度迁移学习方法,针对短文本跨域情感分类任务设计了一个两阶段双向长短期记忆神经网络和参数迁移框架。
4) 多源迁移学习(multi-source transfer learning,MSTL)方法[30]。该方法将余弦相似度测度应用于领域无关的通用情感词典SentiWordNet,计算特征权重,生成修正的情感评分。融合多个源域学习情感分类模型,该方法完全独立于目标域,不需要标记目标域数据。
5) 句法结构迁移(syntactic structure transfer,SST)方法。按照本文提出的策略,但仅使用SST方法完成跨领域情感分类,沿用3.2节的参数设置。
3.4 评价指标鉴于多数跨领域文本情感分类方法均使用准确率(accuracy)作为评价指标,本文使用准确率作为所有方法评价指标。为使本文的结果更具说服力,本文增加了召回率(recall)和F1值(F1 score)作为本实验的评价指标。
4 实验结果及分析此节首先比较了不同方法在跨领域情感分类数据集上的分类结果,验证本文方法的有效性,还对不同方法的结果进行了统计测试。并验证了SSTDF方法中领域融合损失函数权重和迭代次数的变化对于跨领域情感分类结果的影响。
4.1 模型有效性分析不同跨领域文本情感分类基线方法准确率比较结果如表 1所示,SSTDF方法的召回率和F1结果如表 2所示,由表 12可以得出以下结论:
表 1 不同跨领域文本情感分类方法准确率比较结果
任务 GAdaBEL DSR DTL MSTL SST SSTDF
B→D 0.832 0.827 0.755 0.748 0.803 0.840
B→E 0.737 0.827 0.744 0.649 0.812 0.856
B→K 0.779 0.857 0.726 0.662 0.815 0.828
D→B 0.792 0.634 0.758 0.724 0.804 0.820
D→E 0.785 0.695 0.750 0.697 0.815 0.827
D→K 0.813 0.633 0.759 0.684 0.794 0.853
E→B 0.771 0.879 0.733 0.637 0.822 0.845
E→D 0.784 0.831 0.764 0.696 0.817 0.841
E→K 0.877 0.903 0.790 0.745 0.819 0.853
K→B 0.734 0.898 0.728 0.651 0.813 0.869
K→D 0.781 0.857 0.752 0.698 0.829 0.861
K→E 0.826 0.909 0.816 0.746 0.808 0.836
平均值 0.793 0.813 0.756 0.695 0.813 0.844


表选项






表 2 SSTDF方法召回率和F1结果
任务 召回率 F1
B→D 0.822 0.832
B→E 0.836 0.841
B→K 0.815 0.820
D→B 0.811 0.819
D→E 0.825 0.834
D→K 0.830 0.837
E→B 0.827 0.836
E→D 0.831 0.841
E→K 0.845 0.852
K→B 0.844 0.850
K→D 0.852 0.859
K→E 0.818 0.825
平均值 0.830 0.837


表选项






1) 相比传统的迁移学习方法GAdaBEL、DSR、DTL和MSTL方法,SSTDF方法在准确率平均值上分别提高了0.051,0.031、0.088和0.149。同时,尽管DSR方法在“B→K”“E→B”“E→K”“K→B”“K→E”任务上取得了较高的准确率,但是在“D→B”“D→E”“D→K”任务上准确率不是很理想。SSTDF方法在“B→D”“B→E”“D→B”“D→E”“D→K”“E→D”“K→D”任务上均取得了最高的准确率。
2) SSTDF方法在E作为目标领域时的3个任务“B→E” “D→E”“K→E”上的准确率分别为0.856、0.827和0.836,可见在同一个目标领域条件下,不同源领域产生的迁移效果千差万别。SSTDF方法实验结果中,领域B和K相似度低,“B→K”任务的准确率为0.828;领域D和K相似度高,“D→K”任务的准确率为0.853,由此可见,领域相似性越高,迁移效果越好。
3) 在迁移过程中加入最小距离约束,可以保证迁移过程中领域一致性。例如SSTDF方法在平均准确率上比SST方法高0.031,除了有效共享句法结构信息和迁移语义信息外,在学习过程中应加入领域相似度度量,可以提高准确率。
4) SST方法和SSTDF方法分别取得了0.813和0.844的平均准确率,且SSTDF方法在召回率和F1上平均值分别为0.830和0.837,这表明深度迁移学习方法比传统的迁移方法有着较高的迁移效率。由表 2可以看出,SSTDF方法在12个情感迁移任务上召回率和F1均取得了优异的结果。在实验中,还发现目前不同的句法解析器都比较成熟,对模型效果的影响不大。
4.2 统计测试本文使用Friedman检验实验结果的显著性分析。Friedman检验即“双向秩方差分析”,是多个(相关)样本齐一性的统计检验[31]。Friedman检验结果ANOVA如表 3所示,其中SS是变量中每个数据点与变量平均值之间的差的平方和;DF是自由度;MS为均方,其值等于对应的SS除以DF;Chi-sq是卡方统计量的自由度。Chi-sq统计量是对联合零假设的检验。由表 3可以发现,P较小,表明实验结果有较强的差异性。
表 3 不同方法跨领域文本情感分类结果Friedman检验ANOVA表
比较标准 SS DF MS Chi-sq P
1 127.17 5 225.43 39.56 1.83×10-7
交互效应 490.17 15 32.68
误差 320.17 48 6.67
合计 1 937.5 71


表选项






4.3 领域融合损失函数权重影响为验证β对于跨领域情感分类准确率的影响,设置β∈[0, 1],在“B→D” “B→E”“B→K”任务准确率变化如图 3所示。可以发现,随着的变化,准确率变化整体呈现先上升后下降趋势。“B→D” “B→E”“B→K”任务取得最高准确率时对应的β分别为0.8、0.7、0.9。当β=0时,SSTDF方法退化为SST方法。
图 3 不同领域融合损失函数权重下准确率变化
图选项





4.4 迭代次数的影响在联合学习和优化过程中,源网络和目标网络迭代次数是重要关键参数,本节讨论了不同迭代次数下跨领域情感分类准确率的变化情况。为验证源网络不同迭代次数下跨领域情感分类准确率的影响,测试了源网络迭代次数为200~1 600下“B→D”“B→E”“B→K”任务的准确率变化,如图 4所示。随着源网络迭代次数的增加,目标网络分类准确率整体呈上升趋势。
图 4 不同源网络迭代次数下“B→D”“B→E” “B→K”任务的准确率变化
图选项





目标网络迭代次数为60~340下“B→D”“B→E”“B→K”3个任务的准确率变化如图 5所示。因为目标网络带标签数据量远小于源领域,所以迭代次数也小于源网络。针对测试数据,在220次迭代的时候,训练结果达到基本稳定。同时可以发现,目标网络由于源网络参数的初始化,在较少的迭代次数下能取得较高的情感分类准确率。
图 5 不同目标网络迭代次数下“B→D”“B→E” “B→K”任务的准确率变化
图选项





5 结论本文从跨领域句法结构一致性学习的角度出发,提出了基于句法结构迁移和领域融合的跨领域文本情感分类方法。使用递归神经网络模型融合句法结构信息,并在句法结构迁移过程中加入了领域最小距离约束,保证在学习过程中源领域和目标领域距离尽可能相似。实验结果表明,该方法有效提高了跨领域情感分类准确率。该研究不仅可以丰富深度迁移学习理论,而且有望推动社会媒体主观性文本情感挖掘的研究。下一步将增加实验样本和中性样本,在更大的数据集下验证本文提出的方法。另外,尝试进行更细粒度的方面级跨领域情感分析。

参考文献
[1] LI T, CHEN X, ZHANG S H, et al. Cross-domain sentiment classification with contrastive learning and mutual information maximization[C]//Proceedings of the 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, Canada: IEEE, 2021: 8203-8207.
[2] ZHAO C J, WANG S G, LI D Y, et al. Cross-domain sentiment classification via parameter transferring and attention sharing mechanism[J]. Information Sciences, 2021, 578: 281-296. DOI:10.1016/j.ins.2021.07.001
[3] 吴琼, 刘悦, 沈华伟, 等. 面向跨领域情感分类的统一框架[J]. 计算机研究与发展, 2013, 50(8): 1683-1689.
WU Q, LIU Y, SHEN H W, et al. A unified framework for cross-domain sentiment classification[J]. Journal of Computer Research and Development, 2013, 50(8): 1683-1689. (in Chinese)
[4] 赵传君, 王素格, 李德玉. 跨领域文本情感分类研究进展[J]. 软件学报, 2020, 31(6): 1723-1746.
ZHAO C J, WANG S G, LI D Y. Research progress on cross-domain text sentiment classification[J]. Journal of Software, 2020, 31(6): 1723-1746. (in Chinese)
[5] LI L, YE W R, LONG M S, et al. Simultaneous learning of pivots and representations for cross-domain sentiment classification[C]//Proceedings of the 34th AAAI Conference on Artificial Intelligence. New York, USA: AAAI Press, 2020: 8220-8227.
[6] 赵传君, 王素格, 李德玉, 等. 基于分组提升集成的跨领域文本情感分类[J]. 计算机研究与发展, 2015, 52(3): 629-638.
ZHAO C J, WANG S G, LI D Y, et al. Cross-domain text sentiment classification based on Grouping-AdaBoost ensemble[J]. Journal of Computer Research and Development, 2015, 52(3): 629-638. (in Chinese)
[7] 魏现辉, 张绍武, 杨亮, 等. 基于加权SimRank的跨领域文本情感倾向性分析[J]. 模式识别与人工智能, 2013, 26(11): 1004-1009.
WEI X H, ZHANG S W, YANG L, et al. Cross-domain sentiment analysis based on weighted SimRank[J]. Pattern Recognition and Artificial Intelligence, 2013, 26(11): 1004-1009. (in Chinese)
[8] ZHAO C J, WANG S G, LI D Y. Multi-source domain adaptation with joint learning for cross-domain sentiment classification[J]. Knowledge-Based Systems, 2020, 191: 105254. DOI:10.1016/j.knosys.2019.105254
[9] YUE C Y, CAO H Q, XU G P, et al. Collaborative attention neural network for multi-domain sentiment classification[J]. Applied Intelligence, 2021, 51(6): 3174-3188. DOI:10.1007/s10489-020-02021-7
[10] 王素格, 李大宇, 李旸. 基于联合模型的商品口碑数据情感挖掘[J]. 清华大学学报(自然科学版), 2017, 57(9): 926-931.
WANG S G, LI D Y, LI Y. Sentiment mining of commodity reputation data based on joint model[J]. Journal of Tsinghua University (Science and Technology), 2017, 57(9): 926-931. (in Chinese)
[11] 巫继鹏, 鲍建竹, 蓝恭强, 等. 结合规则蒸馏的情感原因发现[J]. 清华大学学报(自然科学版), 2020, 60(5): 422-429.
WU J P, BAO J Z, LAN G Q, et al. Emotion cause extraction using rule distillation[J]. Journal of Tsinghua University (Science and Technology), 2020, 60(5): 422-429. (in Chinese)
[12] ZHAO C J, WANG S G, LI D Y. Exploiting social and local contexts propagation for inducing Chinese microblog-specific sentiment lexicons[J]. Computer Speech & Language, 2019, 55: 57-81.
[13] FU Y P, LIU Y. Cross-domain sentiment classification based on key pivot and non-pivot extraction[J]. Knowledge-Based Systems, 2021, 228: 107280.
[14] PAN S J, YANG Q. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10): 1345-1359.
[15] TAN C Q, SUN F C, KONG T, et al. A survey on deep transfer learning[C]//Proceedings of the 27th International Conference on Artificial Neural Networks. Rhodes, Greece: Springer, 2018: 270-279.
[16] ZHAO C J, WANG S G, LI D Y. Deep transfer learning for social media cross-domain sentiment classification[C]//Proceedings of the 6th Chinese National Conference on Social Media Processing. Beijing, China: Springer, 2017: 232-243.
[17] ZHOU G Y, XIE Z W, HUANG J X, et al. Bi-transferring deep neural networks for domain adaptation[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany: Association for Computational Linguistics, 2016: 322-332.
[18] DONG X, DE MELO G. A helping hand: Transfer learning for deep sentiment analysis[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, Australia: Association for Computational Linguistics, 2018: 2524-2534.
[19] WEI X C, LIN H F, YANG L, et al. A convolution-LSTM-based deep neural network for cross-domain MOOC forum post classification[J]. Information, 2017, 8(3): 92.
[20] GLOROT X, BORDES A, BENGIO Y. Domain adaptation for large-scale sentiment classification: A deep learning approach[C]//Proceedings of the 28th International Conference on Machine Learning. Bellevue, USA: Omnipress, 2011: 513-520.
[21] YU J F, JIANG J. Learning sentence embeddings with auxiliary tasks for cross-domain sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin, Texas: Association for Computational Linguistics, 2016: 236-246.
[22] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two-sample test[J]. The Journal of Machine Learning Research, 2012, 13: 723-773.
[23] LONG M S, WANG J M, DING G G, et al. Transfer feature learning with joint distribution adaptation[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. Sydney, Australia: IEEE Computer Society, 2013: 2200-2207.
[24] LONG M S, CAO Y, WANG J M, et al. Learning transferable features with deep adaptation networks[C]//Proceedings of the 32nd International Conference on Machine Learning. Lille, France: JMLR, 2015: 97-105.
[25] WANG J D, CHEN Y Q, HAO S J, et al. Balanced distribution adaptation for transfer learning [C]//Proceedings of the 2017 IEEE International Conference on Data Mining (ICDM). New Orleans, USA: IEEE, 2017: 1129-1134.
[26] DUAN L X, TSANG I W, XU D. Domain transfer multiple kernel learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(3): 465-479.
[27] ZHU Y C, ZHUANG F Z, WANG J D, et al. Multi-representation adaptation network for cross-domain image classification[J]. Neural Networks, 2019, 119: 214-221.
[28] PENNINGTON J, SOCHER R, MANNING C. GloVe: Global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar: Association for Computational Linguistics, 2014: 1532-1543.
[29] MEHROTRA R, AGRAWAL R, HAIDER S A. Dictionary based sparse representation for domain adaptation[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management. Maui, USA: Association for Computing Machinery, 2012: 2395-2398.
[30] KHAN F H, QAMAR U, BASHIR S. Enhanced cross-domain sentiment classification utilizing a multi-source transfer learning approach[J]. Soft Computing, 2019, 23(14): 5431-5442.
[31] MACK G A, SKILLINGS J H. A Friedman-type rank test for main effects in a two-factor ANOVA[J]. Journal of the American Statistical Association, 1980, 75(372): 947-951.

相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19