删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

面向中文的字词组合序列实体识别方法

本站小编 Free考研考试/2023-11-25

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="https://cdn.bootcdn.net/ajax/libs/mathjax/2.7.9/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>王庆人, 王银子, 仲红, 张以文
安徽大学 计算机科学与技术学院, 合肥 230093
收稿日期:2023-03-20
基金项目:国家自然科学基金重点项目(U1936220); 国家自然科学基金青年项目(62006003)
作者简介:王庆人(1986-), 男, 讲师
通讯作者:仲红, 教授, E-mail: zhongh@ahu.edu.cn

摘要:作为信息抽取的核心任务, 命名实体识别能够从文本中识别不同类型命名实体。得益于深度学习在字词表示、特征提取方面的应用, 中文命名实体识别任务取得了丰富研究成果。然而, 中文命名实体识别任务依旧面临词汇信息缺乏的挑战, 主要表现为:1) 词汇边界信息和上下文语义信息未充分利用; 2) 字和自匹配词汇间语义信息未能有效捕获; 3) 图注意力网络输出信息中不同交互图信息的重要性未被考虑。该文提出一种面向中文的字词组合序列实体识别方法。采用字词组合序列嵌入结构, 实现词汇边界信息以及字符与词汇间语义信息的充分捕捉; 采用多图注意力融合架构, 实现不同图神经网络提取特征重要性的区分。实验表明, 相比已有经典方法, 该方法在Weibo、Resume、OntoNotes4.0及MSRA四个数据集上的F1明显提升, 在中文命名实体识别任务上具有可行性。
关键词:自然语言处理命名实体识别图注意力网络字词组合嵌入多图注意力
Chinese-oriented entity recognition method of character vocabulary combination sequence
WANG Qingren, WANG Yinzi, ZHONG Hong, ZHANG Yiwen
College of Computer Science and Technology, Anhui University, Hefei 230093, China

Abstract: [Objective] As the core task of information extraction, named entity recognition recognizes various types of named entities from the text. The task of Chinese-named entity recognition has benefited from the application of deep learning in character vocabulary representation, feature extraction, and other aspects, achieving rich results. However, this task still faces the challenge of a lack of vocabulary information, which has been regarded as one of the primary impediments to the development of a high-performance Chinese-named entity recognition (NER) system. While the automatically constructed dictionary contains rich lexical boundary information and lexical semantic information, the integration of word knowledge in the Chinese NER task still faces challenges, such as the effective integration of the semantic information of self-matching words and their context information into Chinese characters. Furthermore, although graph neural networks can be used to extract feature information from various Chinese character-vocabulary interaction diagrams in feature extraction, the challenge of how to fuse features based on the importance of the information from the respective interaction diagrams into the original input sequence is yet to be solved. [Methods] This paper proposes a Chinese-oriented entity recognition method of Chinese-vocabulary combination sequence. (1) First, this method proposes a Chinese-vocabulary combination sequence embedding structure that primarily uses self-matching words to replace the Chinese characters in the Chinese character sequence under consideration. To make complete use of the self-matching vocabulary information, we also constructed a sequence for the self-matching vocabulary and vectorized the vocabulary and Chinese characters. At the coding level, we obtained the context information of the Chinese character sequence, the vocabulary sequence, and the Chinese-word combination sequence using the BiLSTM model and then fused the information from the words in the Chinese word combination sequence into the corresponding words in the vocabulary sequence. Furthermore, the graph neural network was used to extract the features of different Chinese-vocabulary interaction diagrams so that the enhanced vocabulary information can be integrated into Chinese characters, which can not only make complete use of the vocabulary boundary information but also integrate the context information of the self-matching vocabulary sequence into characters while capturing the semantic information between the Chinese characters and words, further enriching the character features. Finally, the conditional random field was used to decode and label the entities. (2) Considering the importance of different Chinese character-word interaction diagram information to the original input Chinese character sequence is not the same, this method proposes a multigraph attention fusion structure. It assigns a score to the correlation of the Chinese character sequence based on different Chinese character-word interaction diagram information, differentiates between structural features based on their importance, and fuses different Chinese character-word interaction diagram information into the Chinese character sequence based on their proportions. [Results] The F1 value of the new method was higher than that of the original method on Weibo, Resume, OntoNotes4.0, and MSRA data by 3.17% (Weibo_all), 1.21%, 1.33%, and 0.43%, respectively, thus verifying the feasibility of the new method on Chinese NER tasks. [Conclusions] The experiment revealed that the proposed method is more effective than the original method.
Key words: natural language processingnamed entity recognitiongraph attention neural networkcharacter-word combination embeddingmultigraph attention
作为信息抽取的一个重要子任务,命名实体识别(named entity recognition,NER)[1]旨在识别及分类文本中实体[2] (如人名、位置和组织等),为下游数据挖掘任务如关系抽取[3-4]、事件抽取[5-6]、问答[7]和知识图谱构建[8-10]等提供数据支持和分类支撑。相比英语句子,中文句子缺失自然分割的特点,面向中文的NER方法通常需要先使用中文分词工具开展句子分词工作,然后采用词汇级别序列标注模型识别实体[11-12]。识别过程中,词汇的边界是实体的边界。然而,中文语句博大精深,导致中文分词工具错误分割语句的现象常常发生。于是,不可避免地出现了实体边界检测误差以及实体类型预测误差。
部分研究工作开展字符级别命名实体识别探索[13-14]。字符级别命名实体识别方法取消了分词步骤,直接按字切分语句,采用字符序列标注模型实现命名实体识别。尽管字符级别命名实体识别方法有效解决了分词错误传播问题,但依旧面临词汇及词汇边界信息稀疏的挑战。后续研究采用自匹配词典来缓解这一问题。例如,Zhang等[15]提出Lattice- LSTM方法,将词汇信息融入字符级别命名实体识别模型,在公开中文命名实体识别数据集取得了新的基线结果。考虑到Lattice-LSTM不能有效融合自匹配词汇信息和上下文词汇信息,Sui等[16]提出了具有较强知识整合能力的协同图网络(collaborative graph network,CGN)模型,通过引入多图注意力网络将自匹配词汇信息和最近邻语境信息融入字符。
然而,CGN模型存在一些不足。首先,CGN模型未融合自匹配词汇序列存在的、蕴含词汇边界及语境信息的上下文语义信息。其次,CGN模型未考虑词汇边界信息在字符序列上下文语义上的作用,即未充分考虑字符和自匹配词汇的上下文语境的联系。根据初始字符序列语句和自匹配词汇间的语境关系,在保证和初始语句具有相同字符的前提下,字符和词汇可以重新组合出不同的、包含字符同时包含词汇的新字词序列语句。新字词组合序列包含了新的字词上下文特征,使得不同词汇的语义和边界信息被充分利用。最后,CGN模型在融合不同图注意力网络输出信息时,未考虑不同图信息的重要性。每个图信息对初始字符特征的影响不同,自适应分配不同权重是必要的。
本文提出一种面向中文的字词组合序列命名实体识别方法。提出字词组合序列概念,采用自匹配词汇替换其在字符序列中所包含的字符,从而构建一种新的字词组合序列,不仅能够充分利用词汇边界信息,还可以获取新字词组合的上下文特征。提出多图注意力融合机制,区分不同图神经网络提取特征的重要性,实现不同图输出信息的有效融合。在字词组合序列和多图注意力机制的联合作用下,不仅充分利用词汇语义信息和边界信息,还融合不同图输出信息,实现字符特征增强,解决基于字符序列标注模型缺乏边界信息的问题。在4个公开中文NER数据集上构建多个实验,结果验证了该方法的有效性。
1 相关工作命名实体识别方法[17]分为依赖特征工程和领域知识的基于规则的方法和传统机器学习方法。基于规则[18]的方法是中文命名实体识别早期主要使用方法。这种方法需要手工构建规则,对领域知识的依赖性很强,对规则创建和修改需要花费大量时间和精力。机器学习方法兴起后,基于规则方法中的手工构建规则过程被融合到基于机器学习方法的命名实体识别模型的后期处理中[19]。基于机器学习的方法主要包括:支持向量机(support sector machine, SVM)[20]、隐Markov模型(hidden Markov model,HMM)[21]和条件随机场(conditional random fields,CRF)[22]。这类方法依旧需要人为添加额外特征。在英文命名实体识别任务中,使用神经网络识别命名实体[23]成为主流方法,其中使用卷积神经网络-条件随机场(CNN-CRF)[24-27]和使用双向长短期记忆网络-条件随机场(BiLSTM-CRF)[28-30]最为典型。与英文相比,中文文本没有明确词边界信息。但是,词汇边界信息和语义信息对于中文命名实体识别任务却十分重要,许多工作使用词汇信息作为中文命名实体识别的额外特征[15, 31]
特征提取中,CNN[32]与循环神经网络(recurrent neural network,RNN)[33]因其高效的并行运算以及上下文语义信息捕捉优势被广泛应用[34]。但RNN只拥有短暂记忆能力,对长期依赖关系不敏感,同时存在梯度消失和梯度爆炸问题。为了解决上述问题,相关****提出长短时记忆神经网(LSTM)及其变体门控循环神经网络(GRU)[35],但存在运算速度缓慢问题。Strubell等[36]提出了ID-CNN网络模型,利用空洞卷积,在损失少部分信息基础上扩大卷积核感受视野,同时保留CNN并行运算优点。但上述模型无法融合词汇信息。Sui等[16]提出了CGN,用于将词汇信息融入到基于字符的NER模型。在命名实体识别的任务中,语句与词汇、字符之间存在着大量图形结构,使得它们之间的数据联系能够以图数据的方式存在,所以越来越多的工作考虑将基于图注意力网络(graph attention networks,GAT)[37]的编码应用于模型中。相比基于CNN、RNN的序列模型,基于图注意力神经网络的编码器层可以充分利用图结构在空间中的优势,同时利用节点间信息交互的方式减少信息传递损失。图注意力网络在图中引入注意力机制,每个节点特征计算都会计算相邻节点对该节点的影响,从而动态调整权值,将注意力集中在影响较大节点,进而增强编码层特征提取能力。CGN利用图注意力网络将自匹配词汇和最近上下文词汇信息融合到字符中,从而缓解了基于字符方法缺失词汇信息的问题。在对4个中文NER数据集的实验研究上验证了CGN的有效性。
CGN模型在利用词汇的边界信息和语义信息时并没有考虑到词汇信息在字符序列上的作用,同时在融合不同图输出的信息时,CGN并没有考虑不同图对初始字符嵌入特征的重要性。因此为了更好地利用词汇信息,以及区分不同图信息的重要性,本文提出将词汇添加到字符序列中,从而既可以明确其所包含字符的边界,也可获取周围字符、词汇的上下文特征。在整合不同图信息的步骤中,本文提出多图注意力融合机制,该机制能够为每个图的信息自适应的分配不同图提取出的特征对初始字符序列相关性的权重,用以更有针对性地融合不同图的信息。
2 方法框架本文方法首先利用图注意力网络对词汇与句子进行整合;然后,提出多图注意力融合机制;最后,将介绍增强后的字符表示如何通过CRF层得到预测结果。图 1为方法框架。
图 1 字词组合序列方法框架
图选项





2.1 字词组合序列单一字符序列的数据信息和语义特征无法拥有字符的边界信息,单一词汇序列的信息不能准确判定实体的边界。考虑到现有工作不能充分地利用词汇的边界信息以及语义信息,本文从数据融合的角度提出了字词组合序列,在保证与初始字符序列具有相同字符的情况下,将字符、词汇重新组合成新的序列路径。新的路径通过神经网络的特征级融合方法将不同字符和词汇信息相互融合,用以增强彼此的特征。
首先,通过BiLSTM[38]获取字符序列和词汇序列上下文信息,如图 1所示。接着,构建字词路径有向图,如图 2所示。如果2个词汇所包含的字符在顺序上和局部字符序列顺序一致,则将这2个词汇按照顺序连接,否则词汇连接到其相邻的下一个字符上。如果一个字符有相邻的词汇,则将该字符指向该词汇,同时该字符也指向下一个邻接字符。这种图结构能够使搜索到含有尽可能多词汇节点的字词组合序列。利用图遍历算法遍历出图 3中多个字词组合序列,从多个字词组合序列中随机选出一条并使用BiLSTM获取其上下文信息,同时将字词序列中的词汇节点信息融合到其对应初始输入词汇节点中,此过程如图 1中的嵌入层所示。
图 2 字词路径有向图示例
图选项





图 3 字词组合序列示例
图选项





BiLSTM使字词组合序列中词汇本身边界和语义信息融合到其他词汇节点中,也融合了语句中其他字符、词汇的信息以及上下文语义信息。在后续编码过程中,模型通过使用图注意力网络将词汇信息融合到其包含的字符节点中。相比直接将词汇信息融合到其包含的字符节点的方法,本文方法的字词组合序列中的词汇能够根据上下文特征融合其他词汇的语义和边界信息以及其他字符信息。例如,词汇“战争”可以融合“成为”“演进”的边界信息,字符节点“战” “争”不仅融合其匹配词汇“战争”的边界信息和语义信息,也融合了序列中其他词汇边界信息。在命名实体识别中,实体“战争”的边界和词汇“战争”边界相同,又因融合了临近词汇“演进”的边界信息,这样更倾向于将“战争”标记为命名实体,而不会将“战争演”标记为命名实体。
图 1中,输入是1个字符序列、1个字词组合序列及1个自匹配词汇序列。使用$ c=\left(c_1, c_2, \cdots, c_n\right)$表示输入的字符序列,其中ci表示句子中第i个字符,将自匹配词汇序列表示为$l=\left(l_1, l_2, \cdots, l_m\right) $,字词组合序列表示为$ \mathrm{c}_{-} \mathrm{l}=\left(c_1, l_1, c_2, l_2, \cdots, c_i, l_j \mid i<n, j<m\right)$。通过查找字符嵌入查找表和自匹配词汇嵌入查找表的方式将字符和词汇分别表示为向量xiyj
$\boldsymbol{x}_i=e^c\left(c_i\right), $ (1)
$\boldsymbol{y}_j=e^l\left(l_j\right) \text {. }$ (2)
其中: ec表示c的嵌入查找表,el表示l的嵌入查找表。
首先,使用BiLSTM对嵌入层字符序列向量、字词序列向量以及自匹配词汇序列向量进行初步建模。以字符级句子向量$\left(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n\right) $为例,BiLSTM将计算得到的前向和后向2个不同特征表示进行拼接得到包含上下文特征向量$\boldsymbol{H}=\left(\boldsymbol{h}_1, \boldsymbol{h}_2, \cdots, \boldsymbol{h}_n\right) $
$\boldsymbol{h}_{\mathrm{f}i}=\operatorname{LSTM}\left(\boldsymbol{x}_i, \boldsymbol{h}_{i-1}\right) \text {, }$ (3)
$\boldsymbol{h}_{\mathrm{b} i}=\operatorname{LSTM}\left(\boldsymbol{x}_i, \boldsymbol{h}_{i+1}\right) \text {, }$ (4)
$\boldsymbol{h}_i=\boldsymbol{h}_{\mathrm{f} i} \oplus \boldsymbol{h}_{\mathrm{b} i}.$ (5)
其中:$ \boldsymbol{h}_{\mathrm{f}i} \text { 和 } \boldsymbol{h}_{\mathrm{b} i}$分别表示第i个字符的前向和后向特征向量。同理通过BiLSTM可以得到自匹配词汇序列的上下文特征$\boldsymbol{U}=\left(\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_m\right) $及c_l的上下文特征向量${\bf{H}}_{-} {\bf{U}}=\left(\boldsymbol{h}_1^{\prime}, \boldsymbol{u}_1^{\prime}, \boldsymbol{h}_2^{\prime}, \boldsymbol{u}_2^{\prime}, \cdots, \boldsymbol{h}_i^{\prime}, \boldsymbol{u}_j^{\prime}\right) $,其中hi表示第i个字符在字词组合序列语句中的特征向量,uj表示第j个词汇在字词组合序列语句中的特征向量。因为字词组合序列中词汇的特征向量融合了字符特征和上下文特征,所以可以用来增强U,使用uj*表示增强后的第j个词汇的特征向量,uj*可以表示为
$\boldsymbol{u}_j^*=\boldsymbol{u}_j+\boldsymbol{u}_j^{\prime} .$ (6)
最后将字序列向量和词序列向量进行拼接,嵌入层的最后输出可以表示为
${\bf { Node }}=\left(\boldsymbol{h}_1, \boldsymbol{h}_2, \cdots, \boldsymbol{h}_n, \boldsymbol{u}_1^*, \boldsymbol{u}_2^*, \cdots, \boldsymbol{u}_m^*\right) .$ (7)
2.2 特征提取和多图注意力融合2.2.1 基于GAT的特征提取构建词汇-字符交互图G=(VE),其中V是节点集合,代表所有的字符和自匹配词汇;E是边集合,代表字符与字符、字符与词汇、词汇与词汇的联系。参考CGN[16]构图方式,本文图注意力模型包含3种不同的词汇-字符交互图:包含图(C-图)、转换图(T-图)和Lattice图(L-图)。包含图用来帮助字符捕获自匹配词汇的边界信息和语义信息。转换图用来帮助字符捕获最近上下文词汇语义信息。Lattice图用来帮助字符整合词汇信息,考虑到词汇之间的包含关系,对词汇间也构建了边联系,如果词汇间存在包含关系,则进行连接。构建方式如图 4所示。这3个图共享相同的顶点集V,顶点集是由句子中字符和匹配到的词汇组成,如图 3所示,顶点集V={认,知,…,力,认知,科技,…,动力}。使用邻接矩阵来表示边集。邻接矩阵元素表示图中顶点对是否相邻或者有关系。由于3个图的边集完全不相同,使用$\boldsymbol{A}_{\mathrm{C}}, \boldsymbol{A}_{\mathrm{T}}, \boldsymbol{A}_{\mathrm{L}} $分别表示包含图、转换图、Lattice图的邻接矩阵。在包含图中,如果lj包含ci,就将邻接矩阵ACj行第i列的元素赋值为1。对于转换图,如果ljci的最近前序或后序子序列相匹配,那么ATj行第i列的元素赋值为1;如果chci的最近前序或后序子序列相匹配,那么ATh行第i列的元素赋值为1。在Lattice图中如果cilj的第一个或者最后一个字符,那么ALi行第j列的元素赋值为1;如果chci的前一个或后一个字符,那么ALh行第i列的元素赋值为1。对于序列的自匹配词汇而言,它们同样存在着包含关系,比如:父词汇“认知科技”包含着子词汇“认知”和“科技”,父词汇和其包含的子词汇之间也有着信息互补的关系,父词汇可以丰富子词汇的语义信息,子词汇可以缩小父词汇的边界。Lattice图主要的作用是将词汇的信息融入到它所包含的第一个和最后一个字符中用以确定字符序列的边界,但是字符序列不应该按照单一的匹配词进行确定,它应该有选择性的融合父词汇、子词汇的语义和边界信息。因此本文对Lattice图作了补充,如果ljlh之间是包含或被包含关系,ALj行第h列的元素赋值为1,对父词汇、子词汇建立连接关系,进而通过边的信息传递间接丰富字符的信息。
图 4 词汇-字符多方式交互示意图
图选项





使用GAT对3个交互图进行建模。在一个多层的GAT中,第t层的输入是一组节点特征${\bf{N F}}_t=\left(\boldsymbol{f}_1, \boldsymbol{f}_2, \cdots, \boldsymbol{f}_N\right) $,其中fa表示第a个节点的特征,$\boldsymbol{f}_a \in \mathbb{R}^F $, 下标N表示每一层节点的数目,上标F表示每一层特征的维数。第t层的输出是一组新的节点特征${\bf{N F}}_{t+1}=\left(\boldsymbol{f}_1^{\prime}, \boldsymbol{f}_2^{\prime}, \cdots, \boldsymbol{f}_N^{\prime}\right) $。具有K个独立注意力头的GAT可以表示为
$\boldsymbol{f}_a^{\prime}=\|{ }_{k=1}^K \sigma\left(\sum\limits_{b \in N_a} \alpha_{k a b} \boldsymbol{W}_k \boldsymbol{f}_a\right), $ (8)
$\alpha_{k a b}=\frac{\exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W}_k \boldsymbol{f}_a \| \boldsymbol{W}_k \boldsymbol{f}_b\right]\right)\right)}{\sum\limits_{b \in N_a} \exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W}_k \boldsymbol{f}_a \| \boldsymbol{W}_k \boldsymbol{f}_k\right]\right)\right)}.$ (9)
其中:‖表示串联操作,σ是一个非线性激活函数,Na是图中第a个节点所有一阶邻接节点和K个注意力头的编号集,αkab是第k个注意力机制计算出的第b个节点特征对第a个节点影响的权重系数,$\boldsymbol{W}_k \in \mathbb{R}^{F \times F} \text { 和 } \boldsymbol{a} \in \mathbb{R}^{2 F} $都是一个单层前馈神经网络。加权求和得到最终的输出特征:
$\boldsymbol{f}_a^{\text {final }}=\sigma\left(\frac{1}{K} \sum\limits_{k=1}^K \sum\limits_{b \in N_a} \alpha_{k a b} \boldsymbol{W}_k \boldsymbol{f}_b\right).$ (10)
使用3个独立的图注意力网络对这3个不同的词汇-字符交互图进行编码,分别表示为GATC、GATT、GATL。3个图的输入特征是顶点矩阵Node,最终输出的节点特征为:
$\boldsymbol{G}_{\mathrm{C}}=\mathrm{GAT}_{\mathrm{C}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{C}}\right) \text {, }$ (11)
$\boldsymbol{G}_{\mathrm{T}}=\mathrm{GAT}_{\mathrm{T}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{T}}\right), $ (12)
$\boldsymbol{G}_{\mathrm{L}}=\mathrm{GAT}_{\mathrm{L}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{L}}\right) \text {. }$ (13)
其中$\boldsymbol{G}_e \in \mathbb{R}^{F \times(n+m)}, e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\} $。因为只对字符进行标签解码,所以本文只保留矩阵的前n列:
$\boldsymbol{Q}_e=\boldsymbol{G}_e[:, 0: n], e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\} .$ (14)
2.2.2 多图注意力融合机制CGN利用3个不同的词汇-字符交互图,将词汇的边界和语义信息,上下文词汇的语义信息融合到字符特征中。在融合3个不同图信息时,CGN模型直接将3个图的信息进行融合,并没有考虑不同图信息对原始输入字符序列特征的相关性。不同图信息与原始输入字符序列特征的相关程度是不同的,即不同图信息对增强原始字符序列特征的重要程度是不同的。考虑到这一点,本文提出了多图注意力机制用于区分3个图信息的重要性,并加权融合到字符特征中。
因为注意力机制[39]可以有效地选择最相关的信息,因此本文使用多图注意力机制根据不同图信息的重要程度有效地整合3个图输出的信息,如图 1的多图注意力更新层所示。本文将图层初始输入的字符表示ho与图层输出的每种信息Qe连接起来,并计算出Qeho重要性得分:
$\alpha_e=\operatorname{softmax}\left(\operatorname{AG}\left(\left[\boldsymbol{h}_{\mathrm{o}}: \boldsymbol{Q}_e\right]\right)\right) .$ (15)
其中AG是一个含有sigmoid的单层前馈神经网络,随后使用softmax函数得到3个不同图的注意力权重,可以计算出这3个图信息的加权平均和:
$\boldsymbol{E}=\sum\limits_{e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\}} \alpha_e \boldsymbol{Q}_e.$ (16)
然后再将Eho进行融合:
$\boldsymbol{R}=\boldsymbol{w}_1 \boldsymbol{h}_{\circ}+\boldsymbol{w}_2 \boldsymbol{E} .$ (17)
其中w1w2是可以训练的矩阵,通过注意力融合层,得到矩阵$\boldsymbol{R} \in \mathbb{R}^{F \times n} $。这是一种新的句子表达方式,综合了字符序列、词汇序列和字词组合序列的语境信息,同时融合了自匹配词汇和最近上下文语境词汇知识。
2.3 解码层解码层负责对输入的上下文表示生成对应的标签序列,本文使用标准CRF层来捕获连续标签之间的依赖关系。给定一个句子序列$c=\left(c_1, c_2, \cdots, c_n\right) $在经过嵌入层和编码层处理之后得到序列特征向量$\boldsymbol{R}=\left(\boldsymbol{r}_1, \boldsymbol{r}_2, \cdots, \boldsymbol{r}_n\right) $,并将R作为CRF的输入,如果字符对应的真实标签序列为$d=\left(d_1, d_2, \cdots, d_n\right) $,则标注为序列d的概率是
$p(d \mid c)=\frac{\exp \left(\sum\nolimits_i\left(\boldsymbol{W}^{d_i} \boldsymbol{r}_i+\boldsymbol{T}_{d_{i-1}, d_i}\right)\right)}{\sum\nolimits_{d^{\prime}} \exp \left(\sum\nolimits_i\left(\boldsymbol{W}^{d_i^{\prime}} \boldsymbol{r}_i+\boldsymbol{T}_{d_{i-1}^{\prime}, d_i^{\prime}}\right)\right)} .$ (18)
其中:d′是一个任意的标签序列,Wdi是句子中第i个字符的发射矩阵,$ \boldsymbol{T}_{d_{i-1}, d_i}$表示第(i—1)个字符的标签到第i个字符的标签的转移得分矩阵。本文使用Viterbi算法[40]获得得分最高的标签序列在模型训练过程中采用L2正则化最小化对数似然损失来优化模型,损失函数定义为
$L=-\sum\limits_{i=1}^N \log \left(p\left(d_i \mid c_i\right)\right)+\frac{\lambda}{2}\|\theta\|^2 .$ (19)
其中:λL2的正则化参数,θ是所有可训练参数集合。
3 实验3.1 数据集在4个公开的中文命名NER数据集包括OntoNotes4.0[41]、MSRA[42]、Weibo [43]和Resume[15]上评估提出的模型,如表 1所示。其中OntoNotes4.0是大型的手工标注语料库,包括各种类型文本(如杂志、新闻、博客、电话语音等),具有浅层的语义和结构信息。MSRA来自新闻领域。Weibo不仅标注了4种不同的实体,同时还标注了Named_Entity和Nominal_Mention。Resume来自个人简历,标注了8种不同类型的实体。
表 1 数据集中不同类型数据数量
数据集 类型 训练集 验证集 测试集
OntoNotes4.0句子 15.7×103 4.3×103 4.3×103
字符 291.9×103 200.5×103 208.1×103
MSRA句子 46.4×103 4.4×103 4.4×103
字符 2169.9×103 172.6×103 172.6×103
Weibo句子 1.4×103 0.27×103 0.27×103
字符 73.8×103 14.5×103 14.8×103
Resume句子 3.8×103 0.46×103 0.48×103
字符 124.1×103 13.9×103 15.1×103


表选项






3.2 实验设置本文选用精准率P、召回率R及F1作为评测指标。在实验中,模型初始输入的字符向量嵌入使用了文[15]提出的在中文Giga-Word上预训练的字符向量,词汇嵌入使用了文[44]提供的包含130万个中文词汇的词典。实验中为防止模型过拟合,使用dropout算法[45]。在MSRA、Weibo和Resume三个数据集上,模型采用Adam算法[46]优化参数,对OntoNotes4.0数据集使用SGD算法优化参数。模型将LSTM的隐藏状态维数设置为300,初始学习率设置为0.001,训练的次数设置为100,对于Weibo和Resume这两个小的数据集的batchsize设置为10,OntoNotes4.0和MSRA两个大数据集的batchsize分别设置为20和50。
3.3 实验结果与分析相比传统字符序列和词汇序列相互独立作为嵌入层输入,本文添加了一种字词组合序列的方式,通过该方式得到字符、词汇组合上下文信息,用于增强词汇特征,进而通过图神经网络增强字符特征。相比CGN模型只是将GAT提取的多个图信息进行简单的融合,本文提出多图注意力融合机制,对GAT所提取的特征实现针对性的融合。为验证所提方法有效性,本文对同时使用多图注意力机制和字词组合序列(MGA_CV)构建实验。为了说明字词组合序列(CV)和多图注意力机制(MGA)都能提高模型的性能,本文为仅使用MGA、仅使用CV构建了消融实验。
3.3.1 改进策略有效性分析Weibo数据集是由3种不同标注类型的数据集构成的,分别是Weibo_ne数据集(命名实体)、Weibo_nm数据集(名义提及)和Weibo_all数据集(总体),其中Weibo_all是一个综合性的数据集,因此将Weibo_all作为Weibo的主要实验对比数据集。表 2中,本文模型MGA_CV相比CGN在F1上均有一定程度的提高,在4个数据集上分别绝对提高了0.43%、1.21%、3.17%(Weibo_all)、1.33%,证明了嵌入字词组合序列和添加多图注意力机制对于提高命名实体识别性能的有效性。
表 2 对比CGN实验和消融实验F1结果?
%
模型 MSRA Resume Weibo_ne Weibo_nm Weibo_all OntoNotes4.0
CGN 93.63 94.43 56.45 68.42 65.18 74.46
仅使用MGA 93.77 94.89 57.04 71.67 65.86 75.19
仅使用CV 93.84 95.40 61.49 71.52 66.22 75.50
MGA_CV 94.06 95.64 61.68 72.80 68.35 75.79


表选项






表 2中,在4个公开数据集上,仅使用MGA的F1比CGN均有一定程度的提高,分别绝对提高了0.14%、0.46%、0.68%(Weibo_all)、0.73%。结果表明,相比CGN将3个词汇-字符交互图的信息进行简单的相加融合,MGA能够更有针对性的融合与初始输入序列密切相关的交互图信息,证明了多图注意力机制在融合不同交互图信息的有效性。
表 2中,在4个公开数据集上,仅使用CV的F1比CGN分别绝对提高了0.21%、0.97%、1.04% (Weibo_all)、1.04%。实验数据表明,将字词组合序列作为新的嵌入可以更加有效的将自匹配词汇和相邻词汇的边界信息和语义信息融入到字符特征中,从而使得命名实体任务更准确的识别出实体的边界。
表 2可以看出:1) 仅使用MGA与CGN相比,能够更加有效地将GAT提取出的特征根据与原始输入字符特征的密切性进行融合。2) 仅使用CV与CGN相比,字词组合序列的上下文特征能够用以增强字符和词汇间的联系以及提高模型的性能。3) MGA_CV在Weibo、Resume这种相对较小的数据集上影响更为明显。嵌入字词组合序列和添加多图注意力机制在一定程度上缓解了缺失词汇边界信息的问题,同时增强了字符的特征表示,进而提高了命名实体的F1。
3.3.2 与其他模型的对比结果表 3为在Weibo数据集上的F1结果。CGN构建字-词交互图并利用图神经网络进行特征提取,将词汇的语义信息和最近语境信息融入到字符中,一定程度上缓解了基于字符方法出现缺乏词汇信息的问题。MGA_CV在Weibo_ne、Weibo_nm和Weibo_all上的F1比CGN分别绝对提高了5.23%、3.76%、3.17%,充分证明了将字词组合序列作为嵌入可以充分地利用词汇信息。Peng等[47]提出了SoftLexicon(LSTM)用来添加一个字所在不同词汇中的位置信息。MGA_CV在Weibo_ne、Weibo_nm和Weibo_all上的F1分别比SoftLexicon(LSTM)绝对提高了2.6%、10.14%、6.93%,证明使用词汇语义信息比使用词汇物理信息更有效。
MGA_CV与Lattice-LSTM模型、LR-CNN模型、FLAT模型等基于词汇增强模型进行对比,这些模型分别使用LSTM、CNN、Transformer等方法实现,覆盖了几种常用的特征提取器。结果表明,MGA_CV优于其他方法。
表 3 Weibo数据集上F1对比结果?
%
模型 Weibo_ne Weibo_nm Weibo_all
Lattice-LSTM[15] 53.04 62.25 58.79
LR-CNN[31] 57.14 66.67 59.92
Char-based(LSTM)[15] 46.11 55.29 52.77
+ExSoftword[47] 44.65 55.19 52.42
SoftLexicon(LSTM) 59.08 62.66 61.42
FLAT 63.42
CGN 56.45 68.32 65.18
MGA_CV 61.68 72.80 68.35


表选项






表 45分别展示了在MSRA和Resume数据集上各个方法的F1。对比的方法主要利用了软词技术、字符嵌入特征。可以看出,在这2个数据集上,MGA_CV的F1除了在MSRA数据集上比使用了转换器(Transformer)[48]方法的FLAT[49]的F1稍低外,明显高于其他方法。
表 4 MSRA数据集上对比结果?
%
模型 P R F1
Lattice-LSTM 93.57 92.79 93.18
LR-CNN 94.50 92.93 93.71
Char-based(LSTM) 90.74 86.96 88.81
+ExSoftword 90.77 87.23 88.97
SoftLexicon(LSTM) 94.64 92.70 93.66
FLAT 94.35
CGN 94.01 92.93 93.63
MGA_CV 94.62 93.50 94.06


表选项






表 5 Resume数据集上对比结果?
%
模型 P R F1
Lattice-LSTM 94.81 94.11 94.46
LR-CNN 95.37 94.84 95.11
Char-based(LSTM) 93.66 93.31 93.48
+ExSoftword 95.29 94.42 94.85
SoftLexicon(LSTM) 95.30 95.77 95.53
FLAT 95.45
CGN 94.27 94.59 94.43
MGA_CV 95.23 96.06 95.64


表选项






表 6显示了在OntoNotes4.0数据集上的结果。
表 6 OntoNotes4.0数据集上对比结果?
%
模型 P R F1
Lattice-LSTM 76.35 71.56 73.88
LR-CNN 76.40 72.60 74.45
Char-based(LSTM) 68.79 60.35 64.30
+ExSoftword 69.90 66.46 68.13
SoftLexicon(LSTM) 77.28 74.07 75.64
FLAT 75.70
CGN 76.27 72.74 74.46
MGA_CV 76.96 74.67 75.79


表选项






3.3.3 模型收敛速度对比为验证使用字词组合序列和多图注意力机制能够提升模型的收敛速度,将MGA_CV和CGN的F1与迭代轮次Epoch画出了收敛折线图,每迭代5次就比较1次,如图 58所示。
图 5 Resume数据集
图选项





图 6 OntoNotes4.0数据集
图选项





图 7 MSRA数据集
图选项





图 8 Weibo_all数据集
图选项





在Resume数据集上MGA_CV的F1高于CGN,虽然在一些迭代轮次下MGA_CV的F1会低于CGN的方法,但是两者之间的差值很小。相反当MGA_CV的F1高于CGN时,两者的差值非常大。并且在较少的迭代轮次下,MGA_CV也能取得很好的效果。
图 6中,在整个的训练周期上,MGA_CV的F1及收敛速度都高于CGN。图 7中,对于MSRA数据集,在迭代轮次较少的情况下,MGA_CV的F1和收敛速度都是明显地高于CGN。在经过更多的迭代轮次后,2个模型的数值及收敛趋势基本相同。其主要的原因是,MSRA是一个大型的数据集,标注数据稀疏。并且该数据集没有验证集。使用测试集替代验证集进行验证。在迭代较少轮次时,MGA_CV充分将词汇的信息融入到字符当中,但由于标注数据的稀疏性和利用测试集代替验证集的缘故,在经过多次迭代后模型的差值随之缩小。
在Weibo数据集上,在较少的迭代轮次下MGA_CV的F1低于CGN,其主要的原因是Weibo数据集中的语句并不是很规范,它的语境更贴近口语,因此语句的自匹配词汇并不多。并且由于语境的口语化,命名实体的边界更难确定。在融入词汇信息时,MGA_CV由于引入多个非匹配词汇信息,与CGN只引入自匹配词汇信息相比,不利于通过序列确定实体边界。在经过多次迭代后,模型能够充分融入相关的自匹配词汇。
3.3.4 不同句子长度和句子数量的性对比为了验证本文模型在不同长度范围句子下的有效性和鲁棒性。分别对小数据集Weibo_all和大数据集OntoNotes4.0按照句子长度(每个句子中的最大字符数)将数据集划分为6部分,如图 910所示。
图 9 OntoNotes4.0数据集上句子长度的F1值
图选项





图 10 Weibo_all数据集上句子长度的F1值
图选项





随着句子长度的不断扩大,参与训练的数据也不断地增加。从图 9可以看出,在OntoNotes4.0数据集上,随着句子长度和句子数量的不断增加,CGN的F1基本先递减,随后趋于稳定;而MGA_CV的F1基本先递增,随后趋于稳定,并且在长句子的识别效果上始终优于CGN。图 10中,在Weibo_all数据集上,MGA_CV无论在短句子或是长句子上的F1总体上都是高于CGN的。在大数据集和小数据集上不同句子长度的F1表明,MGA_CV可以更好地捕获全局句子语义和长句子中相隔较远的字符之间的依赖关系。
4 结论本文提出了一种面向中文的字词组合序列实体识别方法。相比将词汇信息直接融合到其包含的字符中的传统方法,该方法通过获取字词组合序列的上下文特征,充分地利用到词汇的边界信息和语义信息。该方法通过图注意力网络将增强后的词汇信息融合到字符当中,有效缓解了基于字符方法的边界确定困难问题。使用多图注意力机制用于融合图信息,能够更有针对性的融合不同图提取出的特征。在4个公开中文数据集的实验结果表明,该方法的性能比CGN有了一定的提高,充分证明了字词组合新序列在融合词汇信息以及多图注意力机制在整合不同图信息对中文命名实体识任务的有效性。下一步,将重点研究利用不同字词组合序列进行特征融合的策略,同时优化模型,解决模型的耗时较长问题。

参考文献
[1] 琚生根, 李天宁, 孙界平. 基于关联记忆网络的中文细粒度命名实体识别[J]. 软件学报, 2021, 32(8): 2545-2556.
JU S G, LI T N, SUN J P. Chinese fine-grained name entity recognition based on associated memory networks[J]. Journal of Software, 2021, 32(8): 2545-2556. (in Chinese)
[2] SUN J, GAO J F, ZHANG L, et al. Chinese named entity identification using class-based language model[C]// COLING 2002: The 19th International Conference on Computational Linguistics. Taipei, China: Association for Computational Linguistics, 2002: 1-7.
[3] BUNESCU R, MOONEY R. A shortest path dependency kernel for relation extraction[C]// Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. Vancouver, Canada: Association for Computational Linguistics, 2005: 724-731.
[4] 叶育鑫, 薛环, 王璐, 等. 基于带噪观测的远监督神经网络关系抽取[J]. 软件学报, 2020, 31(4): 1025-1038.
YE Y X, XUE H, WANG L, et al. Distant supervision neural network relation extraction base on noisy observation[J]. Journal of Software, 2020, 31(4): 1025-1038. (in Chinese)
[5] CHEN Y B, XU L H, LIU K, et al. Event extraction via dynamic multi-pooling convolutional neural networks[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing, China: Association for Computational Linguistics, 2015: 167-176.
[6] 贺瑞芳, 段绍杨. 基于多任务学习的中文事件抽取联合模型[J]. 软件学报, 2019, 30(4): 1015-1030.
HE R F, DUAN S Y. Joint Chinese event extraction based multi-task learning[J]. Journal of Software, 2019, 30(4): 1015-1030. (in Chinese)
[7] MOLLá D, VAN ZAANEN M, SMITH D. Named entity recognition for question answering[C]// Proceedings of Australasian Language Technology Workshop 2006. Sydney, Australia: ALTA, 2006: 51-58.
[8] BOSSELUT A, RASHKIN H, SAP M, et al. COMET: Commonsense transformers for automatic knowledge graph construction[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 4762-4779.
[9] 杨东华, 何涛, 王宏志, 等. 面向知识图谱的图嵌入学习研究进展[J]. 软件学报, 2022, 33(9): 3370-3390.
YANG D H, HE T, WANG H Z, et al. Survey on knowledge graph embedding learning[J]. Journal of Software, 2022, 33(9): 3370-3390. (in Chinese)
[10] 王鑫, 邹磊, 王朝坤, 等. 知识图谱数据管理研究综述[J]. 软件学报, 2019, 30(7): 2139-2174.
WANG X, ZOU L, WANG C K, et al. Research on knowledge graph data management: A survey[J]. Journal of Software, 2019, 30(7): 2139-2174. (in Chinese)
[11] YANG J, TENG Z Y, ZHANG M S, et al. Combining discrete and neural features for sequence labeling[C]// 17th International Conference on Computational Linguistics and Intelligent Text Processing. Konya, Turkey: Springer, 2018: 140-154.
[12] HE H F, SUN X. A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017: 3216-3222.
[13] LI H B, HAGIWARA M, LI Q, et al. Comparison of the impact of word segmentation on name tagging for Chinese and Japanese[C]// Proceedings of the Ninth International Conference on Language Resources and Evaluation. Reykjavik, Iceland: LREC, 2014: 2532-2536.
[14] HE J Z, WANG H F. Chinese named entity recognition and word segmentation based on character[C]// Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing. Hyderabad, India: ACL, 2008: 128-132.
[15] ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia: Association for Computational Linguistics, 2018: 1554-1564.
[16] SUI D B, CHEN Y B, LIU K, et al. Leverage lexical knowledge for Chinese named entity recognition via collaborative graph network[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: Association for Computational Linguistics, 2019: 3830-3840.
[17] 胡滨, 耿天玉, 邓赓, 等. 基于知识蒸馏的高效生物医学命名实体识别模型[J]. 清华大学学报(自然科学版), 2021, 61(9): 936-942.
HU B, GENG T Y, DENG G, et al. Faster biomedical named entity recognition based on knowledge distillation[J]. Journal of Tsinghua University (Science and Technology), 2021, 61(9): 936-942. (in Chinese)
[18] 谭红叶, 郑家恒, 刘开瑛. 基于变换的中国地名自动识别研究[J]. 软件学报, 2001, 12(11): 1608-1613.
TAN H Y, ZHENG J H, LIU K Y. Research on method of automatic recognition of Chinese place name based on transformation[J]. Journal of Software, 2001, 12(11): 1608-1613. (in Chinese)
[19] TSAI T H, WU S H, LEE C W, et al. Mencius: A Chinese named entity recognizer using the maximum entropy-based hybrid model[J]. IJCLCLP, 2004, 9(1): 65-82.
[20] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]// COLING 2002: The 19th International Conference on Computational Linguistics. Taipei, China: Association for Computational Linguistics, 2002: 1-7.
[21] BIKEL D M, MILLER S, SCHWARTZ R, et al. Nymble: A high-performance learning name-finder[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing. Washington, USA: Association for Computational Linguistics, 1997: 194-201.
[22] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[23] 尹学振, 赵慧, 赵俊保, 等. 多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版), 2020, 60(8): 648-655.
YIN X Z, ZHAO H, ZHAO J B, et al. Multi-neural network collaboration for Chinese military named entity recognition[J]. Journal of Tsinghua University (Science and Technology), 2020, 60(8): 648-655. (in Chinese)
[24] MA X Z, HOVY E. End-to-end sequence labeling via Bi-directional LSTM-CNNs-CRF[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics, 2016: 1064-1074.
[25] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370.
[26] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12: 2493-2537.
[27] YAN H, SUN Y, LI X N, et al. An embarrassingly easy but strong baseline for nested named entity recognition[J/OL]. (2022-09-15)[2023-03-20]. https://arxiv.org/abs/2208.04534.
[28] LIU L Y, SHANG J B, REN X, et al. Empower sequence labeling with task-aware neural language model[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI Press, 2018: 5253-5260.
[29] HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[J/OL]. (2015-08-09)[2023-03-20]. https://arxiv.org/abs/1508.01991.
[30] LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: Association for Computational Linguistics, 2016: 260-270.
[31] GUI T, MA R T, ZHANG Q, et al. CNN-based Chinese NER with lexicon rethinking[C]// Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. Macao, China: IJCAI, 2019: 4982-4988.
[32] ZHANG Y, WALLACE B. A sensitivity analysis of (and practitioners' guide to) convolutional neural networks for sentence classification[C]// Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Taipei, China: Asian Federation of Natural Language Processing, 2017: 253-263.
[33] LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York, USA: AAAI Press, 2016: 2873-2879.
[34] LIU W, XU T G, XU Q H, et al. An encoding strategy based word-character LSTM for Chinese NER[C]// Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long and Short Papers). Minneapolis, USA: Association for Computational Linguistics, 2019: 2379-2389.
[35] CHO K, VAN MERRI?NBOER B, BAHDANAU D, et al. On the properties of neural machine translation: Encoder-decoder approaches[C]// 8th Workshop on Syntax, Semantics and Structure in Statistical Translation. Doha, Qatar: Association for Computational Linguistics, 2014: 103-111.
[36] STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions[C]// Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017: 2670-2680.
[37] VELI A?G KOVI?G P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C]// 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2017.
[38] GRAVES A. Supervised sequence labelling with recurrent neural networks[M]. Berlin, Germany: Springer, 2012.
[39] NIE Y Y, TIAN Y H, SONG Y, et al. Improving named entity recognition with attentive ensemble of syntactic Information[C]// Findings of the Association for Computational Linguistics: EMNLP 2020. Association for Computational Linguistics, 2020: 4231-4245.
[40] VITERBI A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory, 1967, 13(2): 260-269.
[41] WEISCHEDEL R, PALMER M, MARCUS M, et al. OntoNotes release 4.0[EB/OL]. (2011-02-15)[2023-03-20]. https://doi.org/10.35111/gfjf-7r50.
[42] LEVOW G A. The third international Chinese language processing bakeoff: Word segmentation and named entity recognition[C]// Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney, Australia: Association for Computational Linguistics, 2006: 108-117.
[43] PENG N Y, DREDZE M. Named entity recognition for Chinese social media with jointly trained embeddings[C]// Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association for Computational Linguistics, 2015: 548-554.
[44] LI S, ZHAO Z, HU R F, et al. Analogical reasoning on Chinese morphological and semantic relations[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Melbourne, Australia: Association for Computational Linguistics, 2018: 138-143.
[45] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[46] KINGMA D P, BA J. Adam: A method for stochastic optimization[C]// 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2014.
[47] MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2020: 5951-5960.
[48] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6000-6010.
[49] LI X N, YAN H, QIU X P, et al. FLAT: Chinese NER using flat-lattice transformer[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistic. Association for Computational Linguistics, 2020: 6836-6842.

相关话题/

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19