安徽大学 计算机科学与技术学院, 合肥 230093
基金项目:国家自然科学基金重点项目(U1936220); 国家自然科学基金青年项目(62006003)
作者简介:王庆人(1986-), 男, 讲师
通讯作者:仲红, 教授, E-mail: zhongh@ahu.edu.cn
摘要:作为信息抽取的核心任务, 命名实体识别能够从文本中识别不同类型命名实体。得益于深度学习在字词表示、特征提取方面的应用, 中文命名实体识别任务取得了丰富研究成果。然而, 中文命名实体识别任务依旧面临词汇信息缺乏的挑战, 主要表现为:1) 词汇边界信息和上下文语义信息未充分利用; 2) 字和自匹配词汇间语义信息未能有效捕获; 3) 图注意力网络输出信息中不同交互图信息的重要性未被考虑。该文提出一种面向中文的字词组合序列实体识别方法。采用字词组合序列嵌入结构, 实现词汇边界信息以及字符与词汇间语义信息的充分捕捉; 采用多图注意力融合架构, 实现不同图神经网络提取特征重要性的区分。实验表明, 相比已有经典方法, 该方法在Weibo、Resume、OntoNotes4.0及MSRA四个数据集上的F1明显提升, 在中文命名实体识别任务上具有可行性。
Chinese-oriented entity recognition method of character vocabulary combination sequence
WANG Qingren, WANG Yinzi, ZHONG Hong, ZHANG Yiwen
College of Computer Science and Technology, Anhui University, Hefei 230093, China
Abstract: [Objective] As the core task of information extraction, named entity recognition recognizes various types of named entities from the text. The task of Chinese-named entity recognition has benefited from the application of deep learning in character vocabulary representation, feature extraction, and other aspects, achieving rich results. However, this task still faces the challenge of a lack of vocabulary information, which has been regarded as one of the primary impediments to the development of a high-performance Chinese-named entity recognition (NER) system. While the automatically constructed dictionary contains rich lexical boundary information and lexical semantic information, the integration of word knowledge in the Chinese NER task still faces challenges, such as the effective integration of the semantic information of self-matching words and their context information into Chinese characters. Furthermore, although graph neural networks can be used to extract feature information from various Chinese character-vocabulary interaction diagrams in feature extraction, the challenge of how to fuse features based on the importance of the information from the respective interaction diagrams into the original input sequence is yet to be solved. [Methods] This paper proposes a Chinese-oriented entity recognition method of Chinese-vocabulary combination sequence. (1) First, this method proposes a Chinese-vocabulary combination sequence embedding structure that primarily uses self-matching words to replace the Chinese characters in the Chinese character sequence under consideration. To make complete use of the self-matching vocabulary information, we also constructed a sequence for the self-matching vocabulary and vectorized the vocabulary and Chinese characters. At the coding level, we obtained the context information of the Chinese character sequence, the vocabulary sequence, and the Chinese-word combination sequence using the BiLSTM model and then fused the information from the words in the Chinese word combination sequence into the corresponding words in the vocabulary sequence. Furthermore, the graph neural network was used to extract the features of different Chinese-vocabulary interaction diagrams so that the enhanced vocabulary information can be integrated into Chinese characters, which can not only make complete use of the vocabulary boundary information but also integrate the context information of the self-matching vocabulary sequence into characters while capturing the semantic information between the Chinese characters and words, further enriching the character features. Finally, the conditional random field was used to decode and label the entities. (2) Considering the importance of different Chinese character-word interaction diagram information to the original input Chinese character sequence is not the same, this method proposes a multigraph attention fusion structure. It assigns a score to the correlation of the Chinese character sequence based on different Chinese character-word interaction diagram information, differentiates between structural features based on their importance, and fuses different Chinese character-word interaction diagram information into the Chinese character sequence based on their proportions. [Results] The F1 value of the new method was higher than that of the original method on Weibo, Resume, OntoNotes4.0, and MSRA data by 3.17% (Weibo_all), 1.21%, 1.33%, and 0.43%, respectively, thus verifying the feasibility of the new method on Chinese NER tasks. [Conclusions] The experiment revealed that the proposed method is more effective than the original method.
Key words: natural language processingnamed entity recognitiongraph attention neural networkcharacter-word combination embeddingmultigraph attention
作为信息抽取的一个重要子任务,命名实体识别(named entity recognition,NER)[1]旨在识别及分类文本中实体[2] (如人名、位置和组织等),为下游数据挖掘任务如关系抽取[3-4]、事件抽取[5-6]、问答[7]和知识图谱构建[8-10]等提供数据支持和分类支撑。相比英语句子,中文句子缺失自然分割的特点,面向中文的NER方法通常需要先使用中文分词工具开展句子分词工作,然后采用词汇级别序列标注模型识别实体[11-12]。识别过程中,词汇的边界是实体的边界。然而,中文语句博大精深,导致中文分词工具错误分割语句的现象常常发生。于是,不可避免地出现了实体边界检测误差以及实体类型预测误差。
部分研究工作开展字符级别命名实体识别探索[13-14]。字符级别命名实体识别方法取消了分词步骤,直接按字切分语句,采用字符序列标注模型实现命名实体识别。尽管字符级别命名实体识别方法有效解决了分词错误传播问题,但依旧面临词汇及词汇边界信息稀疏的挑战。后续研究采用自匹配词典来缓解这一问题。例如,Zhang等[15]提出Lattice- LSTM方法,将词汇信息融入字符级别命名实体识别模型,在公开中文命名实体识别数据集取得了新的基线结果。考虑到Lattice-LSTM不能有效融合自匹配词汇信息和上下文词汇信息,Sui等[16]提出了具有较强知识整合能力的协同图网络(collaborative graph network,CGN)模型,通过引入多图注意力网络将自匹配词汇信息和最近邻语境信息融入字符。
1 相关工作命名实体识别方法[17]分为依赖特征工程和领域知识的基于规则的方法和传统机器学习方法。基于规则[18]的方法是中文命名实体识别早期主要使用方法。这种方法需要手工构建规则,对领域知识的依赖性很强,对规则创建和修改需要花费大量时间和精力。机器学习方法兴起后,基于规则方法中的手工构建规则过程被融合到基于机器学习方法的命名实体识别模型的后期处理中[19]。基于机器学习的方法主要包括:支持向量机(support sector machine, SVM)[20]、隐Markov模型(hidden Markov model,HMM)[21]和条件随机场(conditional random fields,CRF)[22]。这类方法依旧需要人为添加额外特征。在英文命名实体识别任务中,使用神经网络识别命名实体[23]成为主流方法,其中使用卷积神经网络-条件随机场(CNN-CRF)[24-27]和使用双向长短期记忆网络-条件随机场(BiLSTM-CRF)[28-30]最为典型。与英文相比,中文文本没有明确词边界信息。但是,词汇边界信息和语义信息对于中文命名实体识别任务却十分重要,许多工作使用词汇信息作为中文命名实体识别的额外特征[15, 31]。
特征提取中,CNN[32]与循环神经网络(recurrent neural network,RNN)[33]因其高效的并行运算以及上下文语义信息捕捉优势被广泛应用[34]。但RNN只拥有短暂记忆能力,对长期依赖关系不敏感,同时存在梯度消失和梯度爆炸问题。为了解决上述问题,相关****提出长短时记忆神经网(LSTM)及其变体门控循环神经网络(GRU)[35],但存在运算速度缓慢问题。Strubell等[36]提出了ID-CNN网络模型,利用空洞卷积,在损失少部分信息基础上扩大卷积核感受视野,同时保留CNN并行运算优点。但上述模型无法融合词汇信息。Sui等[16]提出了CGN,用于将词汇信息融入到基于字符的NER模型。在命名实体识别的任务中,语句与词汇、字符之间存在着大量图形结构,使得它们之间的数据联系能够以图数据的方式存在,所以越来越多的工作考虑将基于图注意力网络(graph attention networks,GAT)[37]的编码应用于模型中。相比基于CNN、RNN的序列模型,基于图注意力神经网络的编码器层可以充分利用图结构在空间中的优势,同时利用节点间信息交互的方式减少信息传递损失。图注意力网络在图中引入注意力机制,每个节点特征计算都会计算相邻节点对该节点的影响,从而动态调整权值,将注意力集中在影响较大节点,进而增强编码层特征提取能力。CGN利用图注意力网络将自匹配词汇和最近上下文词汇信息融合到字符中,从而缓解了基于字符方法缺失词汇信息的问题。在对4个中文NER数据集的实验研究上验证了CGN的有效性。
2 方法框架本文方法首先利用图注意力网络对词汇与句子进行整合;然后,提出多图注意力融合机制;最后,将介绍增强后的字符表示如何通过CRF层得到预测结果。图 1为方法框架。
图 1 字词组合序列方法框架 |
图选项 |
2.1 字词组合序列单一字符序列的数据信息和语义特征无法拥有字符的边界信息,单一词汇序列的信息不能准确判定实体的边界。考虑到现有工作不能充分地利用词汇的边界信息以及语义信息,本文从数据融合的角度提出了字词组合序列,在保证与初始字符序列具有相同字符的情况下,将字符、词汇重新组合成新的序列路径。新的路径通过神经网络的特征级融合方法将不同字符和词汇信息相互融合,用以增强彼此的特征。
首先,通过BiLSTM[38]获取字符序列和词汇序列上下文信息,如图 1所示。接着,构建字词路径有向图,如图 2所示。如果2个词汇所包含的字符在顺序上和局部字符序列顺序一致,则将这2个词汇按照顺序连接,否则词汇连接到其相邻的下一个字符上。如果一个字符有相邻的词汇,则将该字符指向该词汇,同时该字符也指向下一个邻接字符。这种图结构能够使搜索到含有尽可能多词汇节点的字词组合序列。利用图遍历算法遍历出图 3中多个字词组合序列,从多个字词组合序列中随机选出一条并使用BiLSTM获取其上下文信息,同时将字词序列中的词汇节点信息融合到其对应初始输入词汇节点中,此过程如图 1中的嵌入层所示。
图 2 字词路径有向图示例 |
图选项 |
图 3 字词组合序列示例 |
图选项 |
BiLSTM使字词组合序列中词汇本身边界和语义信息融合到其他词汇节点中,也融合了语句中其他字符、词汇的信息以及上下文语义信息。在后续编码过程中,模型通过使用图注意力网络将词汇信息融合到其包含的字符节点中。相比直接将词汇信息融合到其包含的字符节点的方法,本文方法的字词组合序列中的词汇能够根据上下文特征融合其他词汇的语义和边界信息以及其他字符信息。例如,词汇“战争”可以融合“成为”“演进”的边界信息,字符节点“战” “争”不仅融合其匹配词汇“战争”的边界信息和语义信息,也融合了序列中其他词汇边界信息。在命名实体识别中,实体“战争”的边界和词汇“战争”边界相同,又因融合了临近词汇“演进”的边界信息,这样更倾向于将“战争”标记为命名实体,而不会将“战争演”标记为命名实体。
图 1中,输入是1个字符序列、1个字词组合序列及1个自匹配词汇序列。使用
$\boldsymbol{x}_i=e^c\left(c_i\right), $ | (1) |
$\boldsymbol{y}_j=e^l\left(l_j\right) \text {. }$ | (2) |
$\boldsymbol{h}_{\mathrm{f}i}=\operatorname{LSTM}\left(\boldsymbol{x}_i, \boldsymbol{h}_{i-1}\right) \text {, }$ | (3) |
$\boldsymbol{h}_{\mathrm{b} i}=\operatorname{LSTM}\left(\boldsymbol{x}_i, \boldsymbol{h}_{i+1}\right) \text {, }$ | (4) |
$\boldsymbol{h}_i=\boldsymbol{h}_{\mathrm{f} i} \oplus \boldsymbol{h}_{\mathrm{b} i}.$ | (5) |
$\boldsymbol{u}_j^*=\boldsymbol{u}_j+\boldsymbol{u}_j^{\prime} .$ | (6) |
${\bf { Node }}=\left(\boldsymbol{h}_1, \boldsymbol{h}_2, \cdots, \boldsymbol{h}_n, \boldsymbol{u}_1^*, \boldsymbol{u}_2^*, \cdots, \boldsymbol{u}_m^*\right) .$ | (7) |
图 4 词汇-字符多方式交互示意图 |
图选项 |
$\boldsymbol{f}_a^{\prime}=\|{ }_{k=1}^K \sigma\left(\sum\limits_{b \in N_a} \alpha_{k a b} \boldsymbol{W}_k \boldsymbol{f}_a\right), $ | (8) |
$\alpha_{k a b}=\frac{\exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W}_k \boldsymbol{f}_a \| \boldsymbol{W}_k \boldsymbol{f}_b\right]\right)\right)}{\sum\limits_{b \in N_a} \exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W}_k \boldsymbol{f}_a \| \boldsymbol{W}_k \boldsymbol{f}_k\right]\right)\right)}.$ | (9) |
$\boldsymbol{f}_a^{\text {final }}=\sigma\left(\frac{1}{K} \sum\limits_{k=1}^K \sum\limits_{b \in N_a} \alpha_{k a b} \boldsymbol{W}_k \boldsymbol{f}_b\right).$ | (10) |
$\boldsymbol{G}_{\mathrm{C}}=\mathrm{GAT}_{\mathrm{C}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{C}}\right) \text {, }$ | (11) |
$\boldsymbol{G}_{\mathrm{T}}=\mathrm{GAT}_{\mathrm{T}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{T}}\right), $ | (12) |
$\boldsymbol{G}_{\mathrm{L}}=\mathrm{GAT}_{\mathrm{L}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{L}}\right) \text {. }$ | (13) |
$\boldsymbol{Q}_e=\boldsymbol{G}_e[:, 0: n], e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\} .$ | (14) |
因为注意力机制[39]可以有效地选择最相关的信息,因此本文使用多图注意力机制根据不同图信息的重要程度有效地整合3个图输出的信息,如图 1的多图注意力更新层所示。本文将图层初始输入的字符表示ho与图层输出的每种信息Qe连接起来,并计算出Qe对ho重要性得分:
$\alpha_e=\operatorname{softmax}\left(\operatorname{AG}\left(\left[\boldsymbol{h}_{\mathrm{o}}: \boldsymbol{Q}_e\right]\right)\right) .$ | (15) |
$\boldsymbol{E}=\sum\limits_{e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\}} \alpha_e \boldsymbol{Q}_e.$ | (16) |
$\boldsymbol{R}=\boldsymbol{w}_1 \boldsymbol{h}_{\circ}+\boldsymbol{w}_2 \boldsymbol{E} .$ | (17) |
2.3 解码层解码层负责对输入的上下文表示生成对应的标签序列,本文使用标准CRF层来捕获连续标签之间的依赖关系。给定一个句子序列
$p(d \mid c)=\frac{\exp \left(\sum\nolimits_i\left(\boldsymbol{W}^{d_i} \boldsymbol{r}_i+\boldsymbol{T}_{d_{i-1}, d_i}\right)\right)}{\sum\nolimits_{d^{\prime}} \exp \left(\sum\nolimits_i\left(\boldsymbol{W}^{d_i^{\prime}} \boldsymbol{r}_i+\boldsymbol{T}_{d_{i-1}^{\prime}, d_i^{\prime}}\right)\right)} .$ | (18) |
$L=-\sum\limits_{i=1}^N \log \left(p\left(d_i \mid c_i\right)\right)+\frac{\lambda}{2}\|\theta\|^2 .$ | (19) |
3 实验3.1 数据集在4个公开的中文命名NER数据集包括OntoNotes4.0[41]、MSRA[42]、Weibo [43]和Resume[15]上评估提出的模型,如表 1所示。其中OntoNotes4.0是大型的手工标注语料库,包括各种类型文本(如杂志、新闻、博客、电话语音等),具有浅层的语义和结构信息。MSRA来自新闻领域。Weibo不仅标注了4种不同的实体,同时还标注了Named_Entity和Nominal_Mention。Resume来自个人简历,标注了8种不同类型的实体。
表 1 数据集中不同类型数据数量
数据集 | 类型 | 训练集 | 验证集 | 测试集 |
OntoNotes4.0 | 句子 | 15.7×103 | 4.3×103 | 4.3×103 |
字符 | 291.9×103 | 200.5×103 | 208.1×103 | |
MSRA | 句子 | 46.4×103 | 4.4×103 | 4.4×103 |
字符 | 2169.9×103 | 172.6×103 | 172.6×103 | |
句子 | 1.4×103 | 0.27×103 | 0.27×103 | |
字符 | 73.8×103 | 14.5×103 | 14.8×103 | |
Resume | 句子 | 3.8×103 | 0.46×103 | 0.48×103 |
字符 | 124.1×103 | 13.9×103 | 15.1×103 |
3.2 实验设置本文选用精准率P、召回率R及F1作为评测指标。在实验中,模型初始输入的字符向量嵌入使用了文[15]提出的在中文Giga-Word上预训练的字符向量,词汇嵌入使用了文[44]提供的包含130万个中文词汇的词典。实验中为防止模型过拟合,使用dropout算法[45]。在MSRA、Weibo和Resume三个数据集上,模型采用Adam算法[46]优化参数,对OntoNotes4.0数据集使用SGD算法优化参数。模型将LSTM的隐藏状态维数设置为300,初始学习率设置为0.001,训练的次数设置为100,对于Weibo和Resume这两个小的数据集的batchsize设置为10,OntoNotes4.0和MSRA两个大数据集的batchsize分别设置为20和50。
3.3 实验结果与分析相比传统字符序列和词汇序列相互独立作为嵌入层输入,本文添加了一种字词组合序列的方式,通过该方式得到字符、词汇组合上下文信息,用于增强词汇特征,进而通过图神经网络增强字符特征。相比CGN模型只是将GAT提取的多个图信息进行简单的融合,本文提出多图注意力融合机制,对GAT所提取的特征实现针对性的融合。为验证所提方法有效性,本文对同时使用多图注意力机制和字词组合序列(MGA_CV)构建实验。为了说明字词组合序列(CV)和多图注意力机制(MGA)都能提高模型的性能,本文为仅使用MGA、仅使用CV构建了消融实验。
3.3.1 改进策略有效性分析Weibo数据集是由3种不同标注类型的数据集构成的,分别是Weibo_ne数据集(命名实体)、Weibo_nm数据集(名义提及)和Weibo_all数据集(总体),其中Weibo_all是一个综合性的数据集,因此将Weibo_all作为Weibo的主要实验对比数据集。表 2中,本文模型MGA_CV相比CGN在F1上均有一定程度的提高,在4个数据集上分别绝对提高了0.43%、1.21%、3.17%(Weibo_all)、1.33%,证明了嵌入字词组合序列和添加多图注意力机制对于提高命名实体识别性能的有效性。
表 2 对比CGN实验和消融实验F1结果?
% | |||||||||||||||||||||||||||||
模型 | MSRA | Resume | Weibo_ne | Weibo_nm | Weibo_all | OntoNotes4.0 | |||||||||||||||||||||||
CGN | 93.63 | 94.43 | 56.45 | 68.42 | 65.18 | 74.46 | |||||||||||||||||||||||
仅使用MGA | 93.77 | 94.89 | 57.04 | 71.67 | 65.86 | 75.19 | |||||||||||||||||||||||
仅使用CV | 93.84 | 95.40 | 61.49 | 71.52 | 66.22 | 75.50 | |||||||||||||||||||||||
MGA_CV | 94.06 | 95.64 | 61.68 | 72.80 | 68.35 | 75.79 |
表 2中,在4个公开数据集上,仅使用MGA的F1比CGN均有一定程度的提高,分别绝对提高了0.14%、0.46%、0.68%(Weibo_all)、0.73%。结果表明,相比CGN将3个词汇-字符交互图的信息进行简单的相加融合,MGA能够更有针对性的融合与初始输入序列密切相关的交互图信息,证明了多图注意力机制在融合不同交互图信息的有效性。
表 2中,在4个公开数据集上,仅使用CV的F1比CGN分别绝对提高了0.21%、0.97%、1.04% (Weibo_all)、1.04%。实验数据表明,将字词组合序列作为新的嵌入可以更加有效的将自匹配词汇和相邻词汇的边界信息和语义信息融入到字符特征中,从而使得命名实体任务更准确的识别出实体的边界。
从表 2可以看出:1) 仅使用MGA与CGN相比,能够更加有效地将GAT提取出的特征根据与原始输入字符特征的密切性进行融合。2) 仅使用CV与CGN相比,字词组合序列的上下文特征能够用以增强字符和词汇间的联系以及提高模型的性能。3) MGA_CV在Weibo、Resume这种相对较小的数据集上影响更为明显。嵌入字词组合序列和添加多图注意力机制在一定程度上缓解了缺失词汇边界信息的问题,同时增强了字符的特征表示,进而提高了命名实体的F1。
3.3.2 与其他模型的对比结果表 3为在Weibo数据集上的F1结果。CGN构建字-词交互图并利用图神经网络进行特征提取,将词汇的语义信息和最近语境信息融入到字符中,一定程度上缓解了基于字符方法出现缺乏词汇信息的问题。MGA_CV在Weibo_ne、Weibo_nm和Weibo_all上的F1比CGN分别绝对提高了5.23%、3.76%、3.17%,充分证明了将字词组合序列作为嵌入可以充分地利用词汇信息。Peng等[47]提出了SoftLexicon(LSTM)用来添加一个字所在不同词汇中的位置信息。MGA_CV在Weibo_ne、Weibo_nm和Weibo_all上的F1分别比SoftLexicon(LSTM)绝对提高了2.6%、10.14%、6.93%,证明使用词汇语义信息比使用词汇物理信息更有效。
表 3 Weibo数据集上F1对比结果?
% | |||||||||||||||||||||||||||||
模型 | Weibo_ne | Weibo_nm | Weibo_all | ||||||||||||||||||||||||||
Lattice-LSTM[15] | 53.04 | 62.25 | 58.79 | ||||||||||||||||||||||||||
LR-CNN[31] | 57.14 | 66.67 | 59.92 | ||||||||||||||||||||||||||
Char-based(LSTM)[15] | 46.11 | 55.29 | 52.77 | ||||||||||||||||||||||||||
+ExSoftword[47] | 44.65 | 55.19 | 52.42 | ||||||||||||||||||||||||||
SoftLexicon(LSTM) | 59.08 | 62.66 | 61.42 | ||||||||||||||||||||||||||
FLAT | — | — | 63.42 | ||||||||||||||||||||||||||
CGN | 56.45 | 68.32 | 65.18 | ||||||||||||||||||||||||||
MGA_CV | 61.68 | 72.80 | 68.35 |
表 4和5分别展示了在MSRA和Resume数据集上各个方法的F1。对比的方法主要利用了软词技术、字符嵌入特征。可以看出,在这2个数据集上,MGA_CV的F1除了在MSRA数据集上比使用了转换器(Transformer)[48]方法的FLAT[49]的F1稍低外,明显高于其他方法。
表 4 MSRA数据集上对比结果?
% | |||||||||||||||||||||||||||||
模型 | P | R | F1 | ||||||||||||||||||||||||||
Lattice-LSTM | 93.57 | 92.79 | 93.18 | ||||||||||||||||||||||||||
LR-CNN | 94.50 | 92.93 | 93.71 | ||||||||||||||||||||||||||
Char-based(LSTM) | 90.74 | 86.96 | 88.81 | ||||||||||||||||||||||||||
+ExSoftword | 90.77 | 87.23 | 88.97 | ||||||||||||||||||||||||||
SoftLexicon(LSTM) | 94.64 | 92.70 | 93.66 | ||||||||||||||||||||||||||
FLAT | — | — | 94.35 | ||||||||||||||||||||||||||
CGN | 94.01 | 92.93 | 93.63 | ||||||||||||||||||||||||||
MGA_CV | 94.62 | 93.50 | 94.06 |
表 5 Resume数据集上对比结果?
% | |||||||||||||||||||||||||||||
模型 | P | R | F1 | ||||||||||||||||||||||||||
Lattice-LSTM | 94.81 | 94.11 | 94.46 | ||||||||||||||||||||||||||
LR-CNN | 95.37 | 94.84 | 95.11 | ||||||||||||||||||||||||||
Char-based(LSTM) | 93.66 | 93.31 | 93.48 | ||||||||||||||||||||||||||
+ExSoftword | 95.29 | 94.42 | 94.85 | ||||||||||||||||||||||||||
SoftLexicon(LSTM) | 95.30 | 95.77 | 95.53 | ||||||||||||||||||||||||||
FLAT | — | — | 95.45 | ||||||||||||||||||||||||||
CGN | 94.27 | 94.59 | 94.43 | ||||||||||||||||||||||||||
MGA_CV | 95.23 | 96.06 | 95.64 |
表 6显示了在OntoNotes4.0数据集上的结果。
表 6 OntoNotes4.0数据集上对比结果?
% | |||||||||||||||||||||||||||||
模型 | P | R | F1 | ||||||||||||||||||||||||||
Lattice-LSTM | 76.35 | 71.56 | 73.88 | ||||||||||||||||||||||||||
LR-CNN | 76.40 | 72.60 | 74.45 | ||||||||||||||||||||||||||
Char-based(LSTM) | 68.79 | 60.35 | 64.30 | ||||||||||||||||||||||||||
+ExSoftword | 69.90 | 66.46 | 68.13 | ||||||||||||||||||||||||||
SoftLexicon(LSTM) | 77.28 | 74.07 | 75.64 | ||||||||||||||||||||||||||
FLAT | — | — | 75.70 | ||||||||||||||||||||||||||
CGN | 76.27 | 72.74 | 74.46 | ||||||||||||||||||||||||||
MGA_CV | 76.96 | 74.67 | 75.79 |
3.3.3 模型收敛速度对比为验证使用字词组合序列和多图注意力机制能够提升模型的收敛速度,将MGA_CV和CGN的F1与迭代轮次Epoch画出了收敛折线图,每迭代5次就比较1次,如图 5—8所示。
图 5 Resume数据集 |
图选项 |
图 6 OntoNotes4.0数据集 |
图选项 |
图 7 MSRA数据集 |
图选项 |
图 8 Weibo_all数据集 |
图选项 |
图 6中,在整个的训练周期上,MGA_CV的F1及收敛速度都高于CGN。图 7中,对于MSRA数据集,在迭代轮次较少的情况下,MGA_CV的F1和收敛速度都是明显地高于CGN。在经过更多的迭代轮次后,2个模型的数值及收敛趋势基本相同。其主要的原因是,MSRA是一个大型的数据集,标注数据稀疏。并且该数据集没有验证集。使用测试集替代验证集进行验证。在迭代较少轮次时,MGA_CV充分将词汇的信息融入到字符当中,但由于标注数据的稀疏性和利用测试集代替验证集的缘故,在经过多次迭代后模型的差值随之缩小。
3.3.4 不同句子长度和句子数量的性对比为了验证本文模型在不同长度范围句子下的有效性和鲁棒性。分别对小数据集Weibo_all和大数据集OntoNotes4.0按照句子长度(每个句子中的最大字符数)将数据集划分为6部分,如图 9和10所示。
图 9 OntoNotes4.0数据集上句子长度的F1值 |
图选项 |
图 10 Weibo_all数据集上句子长度的F1值 |
图选项 |
随着句子长度的不断扩大,参与训练的数据也不断地增加。从图 9可以看出,在OntoNotes4.0数据集上,随着句子长度和句子数量的不断增加,CGN的F1基本先递减,随后趋于稳定;而MGA_CV的F1基本先递增,随后趋于稳定,并且在长句子的识别效果上始终优于CGN。图 10中,在Weibo_all数据集上,MGA_CV无论在短句子或是长句子上的F1总体上都是高于CGN的。在大数据集和小数据集上不同句子长度的F1表明,MGA_CV可以更好地捕获全局句子语义和长句子中相隔较远的字符之间的依赖关系。
4 结论本文提出了一种面向中文的字词组合序列实体识别方法。相比将词汇信息直接融合到其包含的字符中的传统方法,该方法通过获取字词组合序列的上下文特征,充分地利用到词汇的边界信息和语义信息。该方法通过图注意力网络将增强后的词汇信息融合到字符当中,有效缓解了基于字符方法的边界确定困难问题。使用多图注意力机制用于融合图信息,能够更有针对性的融合不同图提取出的特征。在4个公开中文数据集的实验结果表明,该方法的性能比CGN有了一定的提高,充分证明了字词组合新序列在融合词汇信息以及多图注意力机制在整合不同图信息对中文命名实体识任务的有效性。下一步,将重点研究利用不同字词组合序列进行特征融合的策略,同时优化模型,解决模型的耗时较长问题。
