面向中文的字词组合序列实体识别方法

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2023-11-25

图 1 字词组合序列方法框架

图选项

2.1 字词组合序列单一字符序列的数据信息和语义特征无法拥有字符的边界信息，单一词汇序列的信息不能准确判定实体的边界。考虑到现有工作不能充分地利用词汇的边界信息以及语义信息，本文从数据融合的角度提出了字词组合序列，在保证与初始字符序列具有相同字符的情况下，将字符、词汇重新组合成新的序列路径。新的路径通过神经网络的特征级融合方法将不同字符和词汇信息相互融合，用以增强彼此的特征。
首先，通过BiLSTM^[38]获取字符序列和词汇序列上下文信息，如图 1所示。接着，构建字词路径有向图，如图 2所示。如果2个词汇所包含的字符在顺序上和局部字符序列顺序一致，则将这2个词汇按照顺序连接，否则词汇连接到其相邻的下一个字符上。如果一个字符有相邻的词汇，则将该字符指向该词汇，同时该字符也指向下一个邻接字符。这种图结构能够使搜索到含有尽可能多词汇节点的字词组合序列。利用图遍历算法遍历出图 3中多个字词组合序列，从多个字词组合序列中随机选出一条并使用BiLSTM获取其上下文信息，同时将字词序列中的词汇节点信息融合到其对应初始输入词汇节点中，此过程如图 1中的嵌入层所示。

图 2 字词路径有向图示例

图选项

图 3 字词组合序列示例

图选项

BiLSTM使字词组合序列中词汇本身边界和语义信息融合到其他词汇节点中，也融合了语句中其他字符、词汇的信息以及上下文语义信息。在后续编码过程中，模型通过使用图注意力网络将词汇信息融合到其包含的字符节点中。相比直接将词汇信息融合到其包含的字符节点的方法，本文方法的字词组合序列中的词汇能够根据上下文特征融合其他词汇的语义和边界信息以及其他字符信息。例如，词汇“战争”可以融合“成为”“演进”的边界信息，字符节点“战” “争”不仅融合其匹配词汇“战争”的边界信息和语义信息，也融合了序列中其他词汇边界信息。在命名实体识别中，实体“战争”的边界和词汇“战争”边界相同，又因融合了临近词汇“演进”的边界信息，这样更倾向于将“战争”标记为命名实体，而不会将“战争演”标记为命名实体。
图 1中，输入是1个字符序列、1个字词组合序列及1个自匹配词汇序列。使用$ c=\left(c_1, c_2, \cdots, c_n\right)$表示输入的字符序列，其中c_i表示句子中第i个字符，将自匹配词汇序列表示为$l=\left(l_1, l_2, \cdots, l_m\right) $，字词组合序列表示为$ \mathrm{c}_{-} \mathrm{l}=\left(c_1, l_1, c_2, l_2, \cdots, c_i, l_j \mid i<n, j<m\right)$。通过查找字符嵌入查找表和自匹配词汇嵌入查找表的方式将字符和词汇分别表示为向量x_i和y_j：

$\boldsymbol{x}_i=e^c\left(c_i\right), $

(1)

$\boldsymbol{y}_j=e^l\left(l_j\right) \text {. }$

(2)

其中: e^c表示c的嵌入查找表，e^l表示l的嵌入查找表。
首先，使用BiLSTM对嵌入层字符序列向量、字词序列向量以及自匹配词汇序列向量进行初步建模。以字符级句子向量$\left(\boldsymbol{x}_1, \boldsymbol{x}_2, \cdots, \boldsymbol{x}_n\right) $为例，BiLSTM将计算得到的前向和后向2个不同特征表示进行拼接得到包含上下文特征向量$\boldsymbol{H}=\left(\boldsymbol{h}_1, \boldsymbol{h}_2, \cdots, \boldsymbol{h}_n\right) $。

$\boldsymbol{h}_{\mathrm{f}i}=\operatorname{LSTM}\left(\boldsymbol{x}_i, \boldsymbol{h}_{i-1}\right) \text {, }$

(3)

$\boldsymbol{h}_{\mathrm{b} i}=\operatorname{LSTM}\left(\boldsymbol{x}_i, \boldsymbol{h}_{i+1}\right) \text {, }$

(4)

$\boldsymbol{h}_i=\boldsymbol{h}_{\mathrm{f} i} \oplus \boldsymbol{h}_{\mathrm{b} i}.$

(5)

其中：$ \boldsymbol{h}_{\mathrm{f}i} \text { 和 } \boldsymbol{h}_{\mathrm{b} i}$分别表示第i个字符的前向和后向特征向量。同理通过BiLSTM可以得到自匹配词汇序列的上下文特征$\boldsymbol{U}=\left(\boldsymbol{u}_1, \boldsymbol{u}_2, \cdots, \boldsymbol{u}_m\right) $及c_l的上下文特征向量${\bf{H}}_{-} {\bf{U}}=\left(\boldsymbol{h}_1^{\prime}, \boldsymbol{u}_1^{\prime}, \boldsymbol{h}_2^{\prime}, \boldsymbol{u}_2^{\prime}, \cdots, \boldsymbol{h}_i^{\prime}, \boldsymbol{u}_j^{\prime}\right) $，其中h′_i表示第i个字符在字词组合序列语句中的特征向量，u′_j表示第j个词汇在字词组合序列语句中的特征向量。因为字词组合序列中词汇的特征向量融合了字符特征和上下文特征，所以可以用来增强U，使用u_j^*表示增强后的第j个词汇的特征向量，u_j^*可以表示为

$\boldsymbol{u}_j^*=\boldsymbol{u}_j+\boldsymbol{u}_j^{\prime} .$

(6)

最后将字序列向量和词序列向量进行拼接，嵌入层的最后输出可以表示为

${\bf { Node }}=\left(\boldsymbol{h}_1, \boldsymbol{h}_2, \cdots, \boldsymbol{h}_n, \boldsymbol{u}_1^*, \boldsymbol{u}_2^*, \cdots, \boldsymbol{u}_m^*\right) .$

(7)

2.2 特征提取和多图注意力融合2.2.1 基于GAT的特征提取构建词汇-字符交互图G=(V，E)，其中V是节点集合，代表所有的字符和自匹配词汇；E是边集合，代表字符与字符、字符与词汇、词汇与词汇的联系。参考CGN^[16]构图方式，本文图注意力模型包含3种不同的词汇-字符交互图：包含图(C-图)、转换图(T-图)和Lattice图(L-图)。包含图用来帮助字符捕获自匹配词汇的边界信息和语义信息。转换图用来帮助字符捕获最近上下文词汇语义信息。Lattice图用来帮助字符整合词汇信息，考虑到词汇之间的包含关系，对词汇间也构建了边联系，如果词汇间存在包含关系，则进行连接。构建方式如图 4所示。这3个图共享相同的顶点集V，顶点集是由句子中字符和匹配到的词汇组成，如图 3所示，顶点集V={认，知，…，力，认知，科技，…，动力}。使用邻接矩阵来表示边集。邻接矩阵元素表示图中顶点对是否相邻或者有关系。由于3个图的边集完全不相同，使用$\boldsymbol{A}_{\mathrm{C}}, \boldsymbol{A}_{\mathrm{T}}, \boldsymbol{A}_{\mathrm{L}} $分别表示包含图、转换图、Lattice图的邻接矩阵。在包含图中，如果l_j包含c_i，就将邻接矩阵A_C第j行第i列的元素赋值为1。对于转换图，如果l_j与c_i的最近前序或后序子序列相匹配，那么A_T第j行第i列的元素赋值为1；如果c_h与c_i的最近前序或后序子序列相匹配，那么A_T第h行第i列的元素赋值为1。在Lattice图中如果c_i是l_j的第一个或者最后一个字符，那么A_L第i行第j列的元素赋值为1；如果c_h是c_i的前一个或后一个字符，那么A_L第h行第i列的元素赋值为1。对于序列的自匹配词汇而言，它们同样存在着包含关系，比如：父词汇“认知科技”包含着子词汇“认知”和“科技”，父词汇和其包含的子词汇之间也有着信息互补的关系，父词汇可以丰富子词汇的语义信息，子词汇可以缩小父词汇的边界。Lattice图主要的作用是将词汇的信息融入到它所包含的第一个和最后一个字符中用以确定字符序列的边界，但是字符序列不应该按照单一的匹配词进行确定，它应该有选择性的融合父词汇、子词汇的语义和边界信息。因此本文对Lattice图作了补充，如果l_j和l_h之间是包含或被包含关系，A_L第j行第h列的元素赋值为1，对父词汇、子词汇建立连接关系，进而通过边的信息传递间接丰富字符的信息。

图 4 词汇-字符多方式交互示意图

图选项

使用GAT对3个交互图进行建模。在一个多层的GAT中，第t层的输入是一组节点特征${\bf{N F}}_t=\left(\boldsymbol{f}_1, \boldsymbol{f}_2, \cdots, \boldsymbol{f}_N\right) $，其中f_a表示第a个节点的特征，$\boldsymbol{f}_a \in \mathbb{R}^F $, 下标N表示每一层节点的数目，上标F表示每一层特征的维数。第t层的输出是一组新的节点特征${\bf{N F}}_{t+1}=\left(\boldsymbol{f}_1^{\prime}, \boldsymbol{f}_2^{\prime}, \cdots, \boldsymbol{f}_N^{\prime}\right) $。具有K个独立注意力头的GAT可以表示为

$\boldsymbol{f}_a^{\prime}=\|{ }_{k=1}^K \sigma\left(\sum\limits_{b \in N_a} \alpha_{k a b} \boldsymbol{W}_k \boldsymbol{f}_a\right), $

(8)

$\alpha_{k a b}=\frac{\exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W}_k \boldsymbol{f}_a \| \boldsymbol{W}_k \boldsymbol{f}_b\right]\right)\right)}{\sum\limits_{b \in N_a} \exp \left(\operatorname{LeakyReLU}\left(\boldsymbol{a}^{\mathrm{T}}\left[\boldsymbol{W}_k \boldsymbol{f}_a \| \boldsymbol{W}_k \boldsymbol{f}_k\right]\right)\right)}.$

(9)

其中：‖表示串联操作，σ是一个非线性激活函数，N_a是图中第a个节点所有一阶邻接节点和K个注意力头的编号集，α_kab是第k个注意力机制计算出的第b个节点特征对第a个节点影响的权重系数，$\boldsymbol{W}_k \in \mathbb{R}^{F \times F} \text { 和 } \boldsymbol{a} \in \mathbb{R}^{2 F} $都是一个单层前馈神经网络。加权求和得到最终的输出特征:

$\boldsymbol{f}_a^{\text {final }}=\sigma\left(\frac{1}{K} \sum\limits_{k=1}^K \sum\limits_{b \in N_a} \alpha_{k a b} \boldsymbol{W}_k \boldsymbol{f}_b\right).$

(10)

使用3个独立的图注意力网络对这3个不同的词汇-字符交互图进行编码，分别表示为GAT_C、GAT_T、GAT_L。3个图的输入特征是顶点矩阵Node，最终输出的节点特征为:

$\boldsymbol{G}_{\mathrm{C}}=\mathrm{GAT}_{\mathrm{C}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{C}}\right) \text {, }$

(11)

$\boldsymbol{G}_{\mathrm{T}}=\mathrm{GAT}_{\mathrm{T}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{T}}\right), $

(12)

$\boldsymbol{G}_{\mathrm{L}}=\mathrm{GAT}_{\mathrm{L}}\left(\text { Node, } \boldsymbol{A}_{\mathrm{L}}\right) \text {. }$

(13)

其中$\boldsymbol{G}_e \in \mathbb{R}^{F \times(n+m)}, e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\} $。因为只对字符进行标签解码，所以本文只保留矩阵的前n列：

$\boldsymbol{Q}_e=\boldsymbol{G}_e[:, 0: n], e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\} .$

(14)

2.2.2 多图注意力融合机制CGN利用3个不同的词汇-字符交互图，将词汇的边界和语义信息，上下文词汇的语义信息融合到字符特征中。在融合3个不同图信息时，CGN模型直接将3个图的信息进行融合，并没有考虑不同图信息对原始输入字符序列特征的相关性。不同图信息与原始输入字符序列特征的相关程度是不同的，即不同图信息对增强原始字符序列特征的重要程度是不同的。考虑到这一点，本文提出了多图注意力机制用于区分3个图信息的重要性，并加权融合到字符特征中。
因为注意力机制^[39]可以有效地选择最相关的信息，因此本文使用多图注意力机制根据不同图信息的重要程度有效地整合3个图输出的信息，如图 1的多图注意力更新层所示。本文将图层初始输入的字符表示h_o与图层输出的每种信息Q_e连接起来，并计算出Q_e对h_o重要性得分：

$\alpha_e=\operatorname{softmax}\left(\operatorname{AG}\left(\left[\boldsymbol{h}_{\mathrm{o}}: \boldsymbol{Q}_e\right]\right)\right) .$

(15)

其中AG是一个含有sigmoid的单层前馈神经网络，随后使用softmax函数得到3个不同图的注意力权重，可以计算出这3个图信息的加权平均和：

$\boldsymbol{E}=\sum\limits_{e \in\{\mathrm{C}, \mathrm{T}, \mathrm{L}\}} \alpha_e \boldsymbol{Q}_e.$

(16)

然后再将E与h_o进行融合：

$\boldsymbol{R}=\boldsymbol{w}_1 \boldsymbol{h}_{\circ}+\boldsymbol{w}_2 \boldsymbol{E} .$

(17)

其中w₁和w₂是可以训练的矩阵，通过注意力融合层，得到矩阵$\boldsymbol{R} \in \mathbb{R}^{F \times n} $。这是一种新的句子表达方式，综合了字符序列、词汇序列和字词组合序列的语境信息，同时融合了自匹配词汇和最近上下文语境词汇知识。
2.3 解码层解码层负责对输入的上下文表示生成对应的标签序列，本文使用标准CRF层来捕获连续标签之间的依赖关系。给定一个句子序列$c=\left(c_1, c_2, \cdots, c_n\right) $在经过嵌入层和编码层处理之后得到序列特征向量$\boldsymbol{R}=\left(\boldsymbol{r}_1, \boldsymbol{r}_2, \cdots, \boldsymbol{r}_n\right) $，并将R作为CRF的输入，如果字符对应的真实标签序列为$d=\left(d_1, d_2, \cdots, d_n\right) $，则标注为序列d的概率是

$p(d \mid c)=\frac{\exp \left(\sum\nolimits_i\left(\boldsymbol{W}^{d_i} \boldsymbol{r}_i+\boldsymbol{T}_{d_{i-1}, d_i}\right)\right)}{\sum\nolimits_{d^{\prime}} \exp \left(\sum\nolimits_i\left(\boldsymbol{W}^{d_i^{\prime}} \boldsymbol{r}_i+\boldsymbol{T}_{d_{i-1}^{\prime}, d_i^{\prime}}\right)\right)} .$

(18)

其中：d′是一个任意的标签序列，W^d_i是句子中第i个字符的发射矩阵，$ \boldsymbol{T}_{d_{i-1}, d_i}$表示第(i—1)个字符的标签到第i个字符的标签的转移得分矩阵。本文使用Viterbi算法^[40]获得得分最高的标签序列在模型训练过程中采用L₂正则化最小化对数似然损失来优化模型，损失函数定义为

$L=-\sum\limits_{i=1}^N \log \left(p\left(d_i \mid c_i\right)\right)+\frac{\lambda}{2}\|\theta\|^2 .$

(19)

其中：λ是L₂的正则化参数，θ是所有可训练参数集合。
3 实验3.1 数据集在4个公开的中文命名NER数据集包括OntoNotes4.0^[41]、MSRA^[42]、Weibo ^[43]和Resume^[15]上评估提出的模型，如表 1所示。其中OntoNotes4.0是大型的手工标注语料库，包括各种类型文本(如杂志、新闻、博客、电话语音等)，具有浅层的语义和结构信息。MSRA来自新闻领域。Weibo不仅标注了4种不同的实体，同时还标注了Named_Entity和Nominal_Mention。Resume来自个人简历，标注了8种不同类型的实体。
表 1 数据集中不同类型数据数量

数据集	类型	训练集	验证集	测试集
OntoNotes4.0	句子	15.7×10³	4.3×10³	4.3×10³
OntoNotes4.0	字符	291.9×10³	200.5×10³	208.1×10³
MSRA	句子	46.4×10³	4.4×10³	4.4×10³
MSRA	字符	2169.9×10³	172.6×10³	172.6×10³
Weibo	句子	1.4×10³	0.27×10³	0.27×10³
Weibo	字符	73.8×10³	14.5×10³	14.8×10³
Resume	句子	3.8×10³	0.46×10³	0.48×10³
Resume	字符	124.1×10³	13.9×10³	15.1×10³

表选项

3.2 实验设置本文选用精准率P、召回率R及F1作为评测指标。在实验中，模型初始输入的字符向量嵌入使用了文[15]提出的在中文Giga-Word上预训练的字符向量，词汇嵌入使用了文[44]提供的包含130万个中文词汇的词典。实验中为防止模型过拟合，使用dropout算法^[45]。在MSRA、Weibo和Resume三个数据集上，模型采用Adam算法^[46]优化参数，对OntoNotes4.0数据集使用SGD算法优化参数。模型将LSTM的隐藏状态维数设置为300，初始学习率设置为0.001，训练的次数设置为100，对于Weibo和Resume这两个小的数据集的batchsize设置为10，OntoNotes4.0和MSRA两个大数据集的batchsize分别设置为20和50。
3.3 实验结果与分析相比传统字符序列和词汇序列相互独立作为嵌入层输入，本文添加了一种字词组合序列的方式，通过该方式得到字符、词汇组合上下文信息，用于增强词汇特征，进而通过图神经网络增强字符特征。相比CGN模型只是将GAT提取的多个图信息进行简单的融合，本文提出多图注意力融合机制，对GAT所提取的特征实现针对性的融合。为验证所提方法有效性，本文对同时使用多图注意力机制和字词组合序列(MGA_CV)构建实验。为了说明字词组合序列(CV)和多图注意力机制(MGA)都能提高模型的性能，本文为仅使用MGA、仅使用CV构建了消融实验。
3.3.1 改进策略有效性分析Weibo数据集是由3种不同标注类型的数据集构成的，分别是Weibo_ne数据集(命名实体)、Weibo_nm数据集(名义提及)和Weibo_all数据集(总体)，其中Weibo_all是一个综合性的数据集，因此将Weibo_all作为Weibo的主要实验对比数据集。表 2中，本文模型MGA_CV相比CGN在F1上均有一定程度的提高，在4个数据集上分别绝对提高了0.43%、1.21%、3.17%(Weibo_all)、1.33%，证明了嵌入字词组合序列和添加多图注意力机制对于提高命名实体识别性能的有效性。
表 2 对比CGN实验和消融实验F1结果?

%
模型	MSRA	Resume	Weibo_ne	Weibo_nm	Weibo_all	OntoNotes4.0
CGN	93.63	94.43	56.45	68.42	65.18	74.46
仅使用MGA	93.77	94.89	57.04	71.67	65.86	75.19
仅使用CV	93.84	95.40	61.49	71.52	66.22	75.50
MGA_CV	94.06	95.64	61.68	72.80	68.35	75.79

表选项

表 2中，在4个公开数据集上，仅使用MGA的F1比CGN均有一定程度的提高，分别绝对提高了0.14%、0.46%、0.68%(Weibo_all)、0.73%。结果表明，相比CGN将3个词汇-字符交互图的信息进行简单的相加融合，MGA能够更有针对性的融合与初始输入序列密切相关的交互图信息，证明了多图注意力机制在融合不同交互图信息的有效性。
表 2中，在4个公开数据集上，仅使用CV的F1比CGN分别绝对提高了0.21%、0.97%、1.04% (Weibo_all)、1.04%。实验数据表明，将字词组合序列作为新的嵌入可以更加有效的将自匹配词汇和相邻词汇的边界信息和语义信息融入到字符特征中，从而使得命名实体任务更准确的识别出实体的边界。
从表 2可以看出：1) 仅使用MGA与CGN相比，能够更加有效地将GAT提取出的特征根据与原始输入字符特征的密切性进行融合。2) 仅使用CV与CGN相比，字词组合序列的上下文特征能够用以增强字符和词汇间的联系以及提高模型的性能。3) MGA_CV在Weibo、Resume这种相对较小的数据集上影响更为明显。嵌入字词组合序列和添加多图注意力机制在一定程度上缓解了缺失词汇边界信息的问题，同时增强了字符的特征表示，进而提高了命名实体的F1。
3.3.2 与其他模型的对比结果表 3为在Weibo数据集上的F1结果。CGN构建字-词交互图并利用图神经网络进行特征提取，将词汇的语义信息和最近语境信息融入到字符中，一定程度上缓解了基于字符方法出现缺乏词汇信息的问题。MGA_CV在Weibo_ne、Weibo_nm和Weibo_all上的F1比CGN分别绝对提高了5.23%、3.76%、3.17%，充分证明了将字词组合序列作为嵌入可以充分地利用词汇信息。Peng等^[47]提出了SoftLexicon(LSTM)用来添加一个字所在不同词汇中的位置信息。MGA_CV在Weibo_ne、Weibo_nm和Weibo_all上的F1分别比SoftLexicon(LSTM)绝对提高了2.6%、10.14%、6.93%，证明使用词汇语义信息比使用词汇物理信息更有效。
MGA_CV与Lattice-LSTM模型、LR-CNN模型、FLAT模型等基于词汇增强模型进行对比，这些模型分别使用LSTM、CNN、Transformer等方法实现，覆盖了几种常用的特征提取器。结果表明，MGA_CV优于其他方法。
表 3 Weibo数据集上F1对比结果?

%
模型	Weibo_ne	Weibo_nm	Weibo_all
Lattice-LSTM^[15]	53.04	62.25	58.79
LR-CNN^[31]	57.14	66.67	59.92
Char-based(LSTM)^[15]	46.11	55.29	52.77
+ExSoftword^[47]	44.65	55.19	52.42
SoftLexicon(LSTM)	59.08	62.66	61.42
FLAT	—	—	63.42
CGN	56.45	68.32	65.18
MGA_CV	61.68	72.80	68.35

表选项

表 4和5分别展示了在MSRA和Resume数据集上各个方法的F1。对比的方法主要利用了软词技术、字符嵌入特征。可以看出，在这2个数据集上，MGA_CV的F1除了在MSRA数据集上比使用了转换器(Transformer)^[48]方法的FLAT^[49]的F1稍低外，明显高于其他方法。
表 4 MSRA数据集上对比结果?

%
模型	P	R	F1
Lattice-LSTM	93.57	92.79	93.18
LR-CNN	94.50	92.93	93.71
Char-based(LSTM)	90.74	86.96	88.81
+ExSoftword	90.77	87.23	88.97
SoftLexicon(LSTM)	94.64	92.70	93.66
FLAT	—	—	94.35
CGN	94.01	92.93	93.63
MGA_CV	94.62	93.50	94.06

表选项

表 5 Resume数据集上对比结果?

%
模型	P	R	F1
Lattice-LSTM	94.81	94.11	94.46
LR-CNN	95.37	94.84	95.11
Char-based(LSTM)	93.66	93.31	93.48
+ExSoftword	95.29	94.42	94.85
SoftLexicon(LSTM)	95.30	95.77	95.53
FLAT	—	—	95.45
CGN	94.27	94.59	94.43
MGA_CV	95.23	96.06	95.64

表选项

表 6显示了在OntoNotes4.0数据集上的结果。
表 6 OntoNotes4.0数据集上对比结果?

%
模型	P	R	F1
Lattice-LSTM	76.35	71.56	73.88
LR-CNN	76.40	72.60	74.45
Char-based(LSTM)	68.79	60.35	64.30
+ExSoftword	69.90	66.46	68.13
SoftLexicon(LSTM)	77.28	74.07	75.64
FLAT	—	—	75.70
CGN	76.27	72.74	74.46
MGA_CV	76.96	74.67	75.79

表选项

3.3.3 模型收敛速度对比为验证使用字词组合序列和多图注意力机制能够提升模型的收敛速度，将MGA_CV和CGN的F1与迭代轮次Epoch画出了收敛折线图，每迭代5次就比较1次，如图 5—8所示。

图 5 Resume数据集

图选项

图 6 OntoNotes4.0数据集

图选项

图 7 MSRA数据集

图选项

图 8 Weibo_all数据集

图选项

在Resume数据集上MGA_CV的F1高于CGN，虽然在一些迭代轮次下MGA_CV的F1会低于CGN的方法，但是两者之间的差值很小。相反当MGA_CV的F1高于CGN时，两者的差值非常大。并且在较少的迭代轮次下，MGA_CV也能取得很好的效果。
图 6中，在整个的训练周期上，MGA_CV的F1及收敛速度都高于CGN。图 7中，对于MSRA数据集，在迭代轮次较少的情况下，MGA_CV的F1和收敛速度都是明显地高于CGN。在经过更多的迭代轮次后，2个模型的数值及收敛趋势基本相同。其主要的原因是，MSRA是一个大型的数据集，标注数据稀疏。并且该数据集没有验证集。使用测试集替代验证集进行验证。在迭代较少轮次时，MGA_CV充分将词汇的信息融入到字符当中，但由于标注数据的稀疏性和利用测试集代替验证集的缘故，在经过多次迭代后模型的差值随之缩小。
在Weibo数据集上，在较少的迭代轮次下MGA_CV的F1低于CGN，其主要的原因是Weibo数据集中的语句并不是很规范，它的语境更贴近口语，因此语句的自匹配词汇并不多。并且由于语境的口语化，命名实体的边界更难确定。在融入词汇信息时，MGA_CV由于引入多个非匹配词汇信息，与CGN只引入自匹配词汇信息相比，不利于通过序列确定实体边界。在经过多次迭代后，模型能够充分融入相关的自匹配词汇。
3.3.4 不同句子长度和句子数量的性对比为了验证本文模型在不同长度范围句子下的有效性和鲁棒性。分别对小数据集Weibo_all和大数据集OntoNotes4.0按照句子长度(每个句子中的最大字符数)将数据集划分为6部分，如图 9和10所示。

图 9 OntoNotes4.0数据集上句子长度的F1值

图选项

图 10 Weibo_all数据集上句子长度的F1值

图选项

随着句子长度的不断扩大，参与训练的数据也不断地增加。从图 9可以看出，在OntoNotes4.0数据集上，随着句子长度和句子数量的不断增加，CGN的F1基本先递减，随后趋于稳定；而MGA_CV的F1基本先递增，随后趋于稳定，并且在长句子的识别效果上始终优于CGN。图 10中，在Weibo_all数据集上，MGA_CV无论在短句子或是长句子上的F1总体上都是高于CGN的。在大数据集和小数据集上不同句子长度的F1表明，MGA_CV可以更好地捕获全局句子语义和长句子中相隔较远的字符之间的依赖关系。
4 结论本文提出了一种面向中文的字词组合序列实体识别方法。相比将词汇信息直接融合到其包含的字符中的传统方法，该方法通过获取字词组合序列的上下文特征，充分地利用到词汇的边界信息和语义信息。该方法通过图注意力网络将增强后的词汇信息融合到字符当中，有效缓解了基于字符方法的边界确定困难问题。使用多图注意力机制用于融合图信息，能够更有针对性的融合不同图提取出的特征。在4个公开中文数据集的实验结果表明，该方法的性能比CGN有了一定的提高，充分证明了字词组合新序列在融合词汇信息以及多图注意力机制在整合不同图信息对中文命名实体识任务的有效性。下一步，将重点研究利用不同字词组合序列进行特征融合的策略，同时优化模型，解决模型的耗时较长问题。

参考文献

[1]	琚生根, 李天宁, 孙界平. 基于关联记忆网络的中文细粒度命名实体识别[J]. 软件学报, 2021, 32(8): 2545-2556. JU S G, LI T N, SUN J P. Chinese fine-grained name entity recognition based on associated memory networks[J]. Journal of Software, 2021, 32(8): 2545-2556. (in Chinese)
[2]	SUN J, GAO J F, ZHANG L, et al. Chinese named entity identification using class-based language model[C]// COLING 2002: The 19th International Conference on Computational Linguistics. Taipei, China: Association for Computational Linguistics, 2002: 1-7.
[3]	BUNESCU R, MOONEY R. A shortest path dependency kernel for relation extraction[C]// Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing. Vancouver, Canada: Association for Computational Linguistics, 2005: 724-731.
[4]	叶育鑫, 薛环, 王璐, 等. 基于带噪观测的远监督神经网络关系抽取[J]. 软件学报, 2020, 31(4): 1025-1038. YE Y X, XUE H, WANG L, et al. Distant supervision neural network relation extraction base on noisy observation[J]. Journal of Software, 2020, 31(4): 1025-1038. (in Chinese)
[5]	CHEN Y B, XU L H, LIU K, et al. Event extraction via dynamic multi-pooling convolutional neural networks[C]// Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Beijing, China: Association for Computational Linguistics, 2015: 167-176.
[6]	贺瑞芳, 段绍杨. 基于多任务学习的中文事件抽取联合模型[J]. 软件学报, 2019, 30(4): 1015-1030. HE R F, DUAN S Y. Joint Chinese event extraction based multi-task learning[J]. Journal of Software, 2019, 30(4): 1015-1030. (in Chinese)
[7]	MOLLá D, VAN ZAANEN M, SMITH D. Named entity recognition for question answering[C]// Proceedings of Australasian Language Technology Workshop 2006. Sydney, Australia: ALTA, 2006: 51-58.
[8]	BOSSELUT A, RASHKIN H, SAP M, et al. COMET: Commonsense transformers for automatic knowledge graph construction[C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, Italy: Association for Computational Linguistics, 2019: 4762-4779.
[9]	杨东华, 何涛, 王宏志, 等. 面向知识图谱的图嵌入学习研究进展[J]. 软件学报, 2022, 33(9): 3370-3390. YANG D H, HE T, WANG H Z, et al. Survey on knowledge graph embedding learning[J]. Journal of Software, 2022, 33(9): 3370-3390. (in Chinese)
[10]	王鑫, 邹磊, 王朝坤, 等. 知识图谱数据管理研究综述[J]. 软件学报, 2019, 30(7): 2139-2174. WANG X, ZOU L, WANG C K, et al. Research on knowledge graph data management: A survey[J]. Journal of Software, 2019, 30(7): 2139-2174. (in Chinese)
[11]	YANG J, TENG Z Y, ZHANG M S, et al. Combining discrete and neural features for sequence labeling[C]// 17th International Conference on Computational Linguistics and Intelligent Text Processing. Konya, Turkey: Springer, 2018: 140-154.
[12]	HE H F, SUN X. A unified model for cross-domain and semi-supervised named entity recognition in Chinese social media[C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. San Francisco, USA: AAAI Press, 2017: 3216-3222.
[13]	LI H B, HAGIWARA M, LI Q, et al. Comparison of the impact of word segmentation on name tagging for Chinese and Japanese[C]// Proceedings of the Ninth International Conference on Language Resources and Evaluation. Reykjavik, Iceland: LREC, 2014: 2532-2536.
[14]	HE J Z, WANG H F. Chinese named entity recognition and word segmentation based on character[C]// Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing. Hyderabad, India: ACL, 2008: 128-132.
[15]	ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia: Association for Computational Linguistics, 2018: 1554-1564.
[16]	SUI D B, CHEN Y B, LIU K, et al. Leverage lexical knowledge for Chinese named entity recognition via collaborative graph network[C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, China: Association for Computational Linguistics, 2019: 3830-3840.
[17]	胡滨, 耿天玉, 邓赓, 等. 基于知识蒸馏的高效生物医学命名实体识别模型[J]. 清华大学学报(自然科学版), 2021, 61(9): 936-942. HU B, GENG T Y, DENG G, et al. Faster biomedical named entity recognition based on knowledge distillation[J]. Journal of Tsinghua University (Science and Technology), 2021, 61(9): 936-942. (in Chinese)
[18]	谭红叶, 郑家恒, 刘开瑛. 基于变换的中国地名自动识别研究[J]. 软件学报, 2001, 12(11): 1608-1613. TAN H Y, ZHENG J H, LIU K Y. Research on method of automatic recognition of Chinese place name based on transformation[J]. Journal of Software, 2001, 12(11): 1608-1613. (in Chinese)
[19]	TSAI T H, WU S H, LEE C W, et al. Mencius: A Chinese named entity recognizer using the maximum entropy-based hybrid model[J]. IJCLCLP, 2004, 9(1): 65-82.
[20]	ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]// COLING 2002: The 19th International Conference on Computational Linguistics. Taipei, China: Association for Computational Linguistics, 2002: 1-7.
[21]	BIKEL D M, MILLER S, SCHWARTZ R, et al. Nymble: A high-performance learning name-finder[C]// Proceedings of the Fifth Conference on Applied Natural Language Processing. Washington, USA: Association for Computational Linguistics, 1997: 194-201.
[22]	LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]// Proceedings of the Eighteenth International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[23]	尹学振, 赵慧, 赵俊保, 等. 多神经网络协作的军事领域命名实体识别[J]. 清华大学学报(自然科学版), 2020, 60(8): 648-655. YIN X Z, ZHAO H, ZHAO J B, et al. Multi-neural network collaboration for Chinese military named entity recognition[J]. Journal of Tsinghua University (Science and Technology), 2020, 60(8): 648-655. (in Chinese)
[24]	MA X Z, HOVY E. End-to-end sequence labeling via Bi-directional LSTM-CNNs-CRF[C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Berlin, Germany: Association for Computational Linguistics, 2016: 1064-1074.
[25]	CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370.
[26]	COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12: 2493-2537.
[27]	YAN H, SUN Y, LI X N, et al. An embarrassingly easy but strong baseline for nested named entity recognition[J/OL]. (2022-09-15)[2023-03-20]. https://arxiv.org/abs/2208.04534.
[28]	LIU L Y, SHANG J B, REN X, et al. Empower sequence labeling with task-aware neural language model[C]// Proceedings of the 32nd AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI Press, 2018: 5253-5260.
[29]	HUANG Z H, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[J/OL]. (2015-08-09)[2023-03-20]. https://arxiv.org/abs/1508.01991.
[30]	LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[C]// Proceedings of 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, USA: Association for Computational Linguistics, 2016: 260-270.
[31]	GUI T, MA R T, ZHANG Q, et al. CNN-based Chinese NER with lexicon rethinking[C]// Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. Macao, China: IJCAI, 2019: 4982-4988.
[32]	ZHANG Y, WALLACE B. A sensitivity analysis of (and practitioners' guide to) convolutional neural networks for sentence classification[C]// Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Taipei, China: Asian Federation of Natural Language Processing, 2017: 253-263.
[33]	LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning[C]// Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York, USA: AAAI Press, 2016: 2873-2879.
[34]	LIU W, XU T G, XU Q H, et al. An encoding strategy based word-character LSTM for Chinese NER[C]// Proceedings of 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1(Long and Short Papers). Minneapolis, USA: Association for Computational Linguistics, 2019: 2379-2389.
[35]	CHO K, VAN MERRI?NBOER B, BAHDANAU D, et al. On the properties of neural machine translation: Encoder-decoder approaches[C]// 8th Workshop on Syntax, Semantics and Structure in Statistical Translation. Doha, Qatar: Association for Computational Linguistics, 2014: 103-111.
[36]	STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions[C]// Proceedings of 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, Denmark: Association for Computational Linguistics, 2017: 2670-2680.
[37]	VELI A?G KOVI?G P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C]// 6th International Conference on Learning Representations. Vancouver, Canada: ICLR, 2017.
[38]	GRAVES A. Supervised sequence labelling with recurrent neural networks[M]. Berlin, Germany: Springer, 2012.
[39]	NIE Y Y, TIAN Y H, SONG Y, et al. Improving named entity recognition with attentive ensemble of syntactic Information[C]// Findings of the Association for Computational Linguistics: EMNLP 2020. Association for Computational Linguistics, 2020: 4231-4245.
[40]	VITERBI A. Error bounds for convolutional codes and an asymptotically optimum decoding algorithm[J]. IEEE Transactions on Information Theory, 1967, 13(2): 260-269.
[41]	WEISCHEDEL R, PALMER M, MARCUS M, et al. OntoNotes release 4.0[EB/OL]. (2011-02-15)[2023-03-20]. https://doi.org/10.35111/gfjf-7r50.
[42]	LEVOW G A. The third international Chinese language processing bakeoff: Word segmentation and named entity recognition[C]// Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. Sydney, Australia: Association for Computational Linguistics, 2006: 108-117.
[43]	PENG N Y, DREDZE M. Named entity recognition for Chinese social media with jointly trained embeddings[C]// Proceedings of 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association for Computational Linguistics, 2015: 548-554.
[44]	LI S, ZHAO Z, HU R F, et al. Analogical reasoning on Chinese morphological and semantic relations[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Melbourne, Australia: Association for Computational Linguistics, 2018: 138-143.
[45]	SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[46]	KINGMA D P, BA J. Adam: A method for stochastic optimization[C]// 3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2014.
[47]	MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2020: 5951-5960.
[48]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc., 2017: 6000-6010.
[49]	LI X N, YAN H, QIU X P, et al. FLAT: Chinese NER using flat-lattice transformer[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistic. Association for Computational Linguistics, 2020: 6836-6842.

面向中文的字词组合序列实体识别方法

本站小编 Free考研考试/2023-11-25

相关话题/

领限时大额优惠券,享本站正版考研考试资料!