面向中文AMR标注体系的兼语语料库构建及兼语结构识别

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-20

图 1 兼语结构AMR图

图选项

但是汉语句式复杂多变，其中连动结构及主谓短语做宾语的结构与兼语结构尤为相似，需要结合结构和语义进行判定。具体界定过程分为2步：1) 筛选具有“NP1+V1+NP2+V2”结构，且NP2充当V1宾语和V2主语的句子；2) 判断V1宾语涉及的范围是NP2还是整个主谓结构构成的短语或从句，如果只涉及NP2则判定为兼语句，否则判定为非兼语句。
TCT(Tsinghua Chinese treebank)^[18]中对兼语结构和主谓短语做宾语的界定模糊。例如“建议纪委介入调查”是一个典型的主谓短语做宾语句，“建议”的内容是“纪委介入调查”，涉及的范围是其后的整个从句，但TCT将其标注为兼语结构。本文在构建语料库时，综合考虑了前述2个界定步骤，有效避免了2类结构界定模糊的问题。
2.2 兼语结构标注本文构建的兼语语料库主要对兼语结构的边界、V1、V2及兼语的中心词进行标注。
1) 兼语结构的前边界。
本文语料库将兼语结构的前边界标注在V1前，并用“【【”标注。如果兼语结构的V1存在于连动结构中，则将兼语结构的前边界标注到连动结构的第1个动词前。示例见例1。
2) 兼语结构的后边界。
本文语料库将兼语结构的后边界标注在V2所在的动词短语后，用“】】”标注，如果兼语结构的V2存在于连动结构中，则将兼语结构的后边界标注到连动结构中最后一个动词所在的动词短语之后。示例见例2。
3) V1。
本文语料库使用“_V1”标注V1，如果兼语结构的V1存在于连动结构中，则只标注连动结构中的第1个兼语动词。示例见例1。
4) V2。
本文语料库使用“_V2”标注V2，针对各类复杂兼语结构，对V2的标注规范进行以下细化规定。
(a) 如果兼语结构主谓词组的谓词存在于连动结构中，则将V2标注为连动结构中的第1个动词。示例见例3。
(b) 如果句中包含“去吃饭”“来做客”这类连动结构，AMR会将“去”和“来”这类无实际含义的词省略，为与其他连动结构标注一致，本文在标注V2时标注第1个动词。示例见例4。
(c) 如果主谓词组为情态动词加动词的结构，则将V2标注为情态动词。示例见例5。
(d) 如果存在一个动词作为另一动词的“方式”的句子，则将V2标注为兼语之后的第1个动词。示例见例6，其中AMR标注体系会将“碾”作为“乡亲们”的谓语，而将“集中到一个碾子上”作为“碾米”的方式，为了与前面的标注标准一致，故将V2标注为兼语后的第1个动词“集中”。
(e) 如果兼语结构中存在主谓词组后有补语的情况，则将V2标注为兼语后的第1个动词。示例见例7。
(f) 如果兼语结构中含有复句，对于并列及递进等没有主次关系的复句，将V2标注为复句第1部分的谓词，对于其他带有主次关系的复句，将V2标注为主要子句中的谓词。示例见例8和9。
5) 兼语中心词。
本文语料库使用“_JY”标注兼语中心词。针对各类复杂情况，本文对兼语标注规范进行以下细化规定。
(a) 如果兼语为名词短语，则标注名词短语的中心词。示例见例10。
(b) 如果兼语是由多个名词或名词短语并列组成，则对其中的每一个名词或名词短语的中心词进行标注。示例见例11。
(c) 如果兼语由一个完整的主谓宾结构构成，AMR会将该结构的中心谓词作为兼语动词的arg2，因此只标注该结构的中心谓词。示例见例12。
例1??他【【号_V1召_V1和动员全体指_JY战_JY员_JY节_V2衣_V2缩_V2食_V2】】。
例2??它能【【帮_V1助_V1人_JY类_JY开_V2拓_V2未知的领域和获得新的知识】】。
例3??我们想【【让_V1妈_JY妈_JY听_V2听_V2音乐、看看舞蹈】】。
例4??他们【【邀_V1请_V1全国18家甲级城市规划设计院的专_JY家_JY来_V2考察论证】】。
例5??要重视理论队伍的建设，【【使_V1确有成就的青年理论人_JY才_JY能_V2脱颖而出】】。
例6??【【让_V1乡_JY亲_JY们_JY集_V2中_V2到一个碾子上碾米】】。
例7??我们也尽可能【【让_V1她_JY过_V2得充实如意】】。
例8??老师【【让_V1她_JY一边听_V2语音一边记笔记】】。
例9??干吗【【让_V1人_JY家_JY一进门就赶_V2上_V2一顿熊】】呢？
例10??奏鸣曲【【让_V1专修音乐的妹_JY妹_JY大_V2吃_V2一_V2惊_V2】】。
例11??能够【【让_V1灾区的孩_JY子_JY、学_JY生_JY得_V2到_V2相应的关怀】】就够了。
例12??【【使_V1高速度大容量异种机传_JY输_JY信息成_V2为_V2可能】】。
2.3 兼语语料库的统计分析本文选取了文学、新闻、微博等领域的67 419个句子作为语料构建的原始语料，从中筛选得到了4 760个兼语句及5 248个兼语结构，并按照本文设计的兼语结构标注规范完成了兼语语料库的构建。对兼语结构中V1出现的频次进行了统计，其中出现频次最高的6个词如图 2所示。可以看出，兼语结构中的兼语动词多集中在“让”“使”“令”“请”“叫”“要求”等词，这6个词构成的兼语结构数量占所有兼语结构的70.8%。

图 2 兼语动词频次图

图选项

本文对低频兼语动词也进行了统计，其中出现频次低于5次的兼语动词数量见表 1，可以发现兼语语料库中包含大量低频兼语动词，其中出现频率为1次的有128个。低频兼语动词的大量存在使得兼语结构识别工作十分困难，因此有效处理低频兼语动词对兼语结构的识别具有重要意义。
表 1 低频兼语动词

频次	数量	示例
1	128	胁迫、恳请、指派
2	51	吁请、责令、诚邀
3	18	打发、煽动、劝说
4	8	任命、扶持、放任
5	10	督促、选派、提请

表选项

3 兼语结构识别研究基于构建的兼语语料库，本文使用神经网络模型自动识别兼语结构的边界，辅助构建及解析中文AMR语料。由于兼语结构的语义关系复杂，句式变化丰富，因此兼语结构的识别任务具有一定的挑战性。
3.1 任务定义及数据划分本文将兼语结构的边界识别任务建模为序列化标注任务。给定输入的句子序列X=(x₁, x₂, …, x_n)，模型需要预测出对应输入句子序列的标签序列Y=(y₁, y₂, …, y_n), 其中y_i∈{B, M, E, S, O}。B对应兼语结构的起始字，E对应兼语结构的结尾字，M对应兼语结构除以上成分的其他字，O对应句子的非兼语结构，示例如表 2所示。将标注好的语料导出为序列化标注格式的文件，并随机打乱顺序，选取其中的10%作为测试集，然后从剩余的语料中选取90%作为训练集，10% 作为开发集。
表 2 兼语句标注示例

文本	老	师	让	大	家	补	选	班	长	。
标签	O	O	B	M	M	M	M	M	E	O

表选项

3.2 模型自动分词以及词性标注工具处理语料容易造成错误传播，单独使用字符信息对兼语结构进行识别容易丢失词语本身携带的信息，因此本文根据文[19]获得句子的字向量x_i^c及其对应的词典信息向量e_i^s，并对二者进行拼接，获得句子完整的向量表示。将上述向量传入表示层，获得包含上下文信息的句子表示。常用的表示层模型有卷积神经网络(CNN)、Transformer^[20]、双向长短期记忆网络(BiLSTM)^[21]等，由于没有使用神经网络模型识别兼语结构边界的相关研究工作，因此本文分别使用CNN、Transformer和BiLSTM这3个基础模型作为表示层提取句子特征，识别结果如表 3所示。其中P和R分别表示精确率和召回率。
表 3 神经网络模型对比实验结果

模型	P/%	R/%	F1/%
LA-CNN-CRF	65.04	70.25	67.54
LA-Transformer-CRF	73.48	66.14	69.62
LA-BiLSTM-CRF	86.25	85.91	86.06

表选项

可以发现，CNN模型难以捕捉长兼语结构的特征，因此其识别效果较差。Transformer模型采用注意力机制提取文本特征，解决了文本的长距离依赖问题，但仍难以捕捉兼语结构中包含的连动及宾语从句这种与位置方向有关的结构信息，对于该种兼语结构的后边界识别效果较差。BiLSTM模型既可以捕捉句子中较长的上下文信息，又不会丢失句子中字词的位置方向信息，对于长兼语结构及包含连动或宾语从句的兼语结构识别效果优于前2个模型，其P、R和F1分别为86.25%、85.91% 和86.06%。实验结果证明，BiLSTM模型更适合兼语结构边界识别任务。本文最终选用BiLSTM模型作为表示层获取句子的上下文信息。
兼语结构的标签具有很强的依赖性，因此本文在BiLSTM模型之后拼接了CRF模型。最终构成的LA-BiLSTM-CRF^[19]模型可以完成文本的兼语结构边界识别任务，模型结构如图 3所示。

图 3 LA-BiLSTM-CRF模型结构

图选项

4 实验设置及结果分析实验使用的语料是本文构建的面向中文AMR标注体系的兼语结构标注语料。本文的词向量使用预训练的CTB6.0 50维词向量^[22]，字向量使用word2vec训练的Giga-Word 50维字向量^[23]，迭代训练次数为30次，其余实验参数与文[19]一致。
为了验证基于字符的神经网络模型以及词典信息的有效性，本文进行了相关的消融实验，实验结果如表 4所示，其中BiLSTM-CRF_W是基于词和词性信息的神经网络模型，BiLSTM-CRF_C是基于字符的神经网络模型。
表 4 消融实验结果

模型	P/%	R/%	F1/%
BiLSTM-CRF_W	71.72	75.87	73.73
BiLSTM-CRF_C	85.52	84.34	84.93
LA-BiLSTM-CRF	86.25	85.91	86.06

表选项

可以发现, BiLSTM-CRF_C模型的P、R和F1比BiLSTM-CRF_W模型分别绝对高13.80%、8.47%和11.20%，这证明基于字符的神经网络模型缓解了分词及词性标注的错误传播问题，但该模型丢失了句子中包含的词语信息，LA-BiLSTM-CRF模型在此模型的基础上添加了词典信息，识别兼语结构边界的P、R和F1又分别绝对提高了0.73%、1.57% 和1.13%，实验结果证明添加词典信息可以有效提高基于字符的神经网络模型对兼语结构边界识别的效果。
目前为止，兼语结构边界识别的研究工作较少，只有陈静等^[11]采用基于特征模板的CRF模型对兼语结构边界进行了识别研究，因此本文使用该模型及特征模板对本文构建的语料进行识别，并将其结果与LA-BiLSTM-CRF模型的结果进行对比，如表 5所示。本文还对比了这2个模型的所有标签识别效果，结果如表 6所示。
表 5 CRF和LA-BiLSTM-CRF兼语结构识别结果

模型	P/%	R/%	F1/%
CRF	87.12	82.24	84.61
LA-BiLSTM-CRF	86.25	85.91	86.06

表选项

表 6 CRF和LA-BiLSTM-CRF标签识别结果

标签	P/%		R/%		F1/%
标签	CRF	LA-BiLSTM-CRF	CRF	LA-BiLSTM-CRF	CRF	LA-BiLSTM-CRF
B	96.32	94.32	90.93	94.70	93.55	94.51
M	88.58	94.03	91.43	89.15	89.98	91.52
E	87.53	86.50	82.63	86.84	85.00	86.67

表选项

从表 5可以发现，LA-BiLSTM-CRF模型识别兼语结构边界的F1比CRF模型绝对高1.45%。CRF模型识别的P略高于LA-BiLSTM-CRF模型。而LA-BiLSTM-CRF模型识别的R比CRF模型绝对高3.67%。从表 6可以发现，2个模型对兼语结构前边界的识别效果最好，后边界识别效果最差。CRF模型对前边界和后边界识别的P比LA-BiLSTM-CRF模型分别绝对高2.00%和1.03%，但LA-BiLSTM-CRF模型对前边界和后边界识别的R比CRF模型分别绝对高3.77%和4.21%，且F1比CRF模型分别绝对高0.96%和1.67%。实验结果证明，CRF模型基于特征模板进行训练，识别结果较为精确，但难以识别包含低频兼语动词及兼语动词存在分词错误的兼语结构。LA-BiLSTM-CRF模型使用向量对句子进行表示，有效提高了兼语结构前边界识别的R和F1。兼语结构本身较为复杂，且前边界识别的错误直接影响后边界的识别效果，因此这2个模型的后边界识别效果较差。总体而言，LA-BiLSTM-CRF模型对3种标签的识别性能都有不同程度的提升，因而有效改善了兼语结构边界识别任务的效果。
5 结论本文根据中文AMR标注体系的特点，制定了一套面向中文AMR标注体系的兼语结构标注规范，并利用此规范对收集的语料进行了兼语结构标注，缓解了面向中文AMR标注体系的兼语语料库缺乏的问题。基于该兼语语料库，本文使用LA-BiLSTM-CRF模型识别兼语结构，避免了分词及词性标注系统造成的错误传播，有效提高了兼语结构的识别效果。该模型缓解了低频兼语动词难以识别的问题，但低频兼语动词的存在仍然影响着兼语结构前边界的识别效果。
下一步仍需要不断标注新的语料，使得模型学习到更多复杂的句子形式，提高模型处理复杂句子的能力。

参考文献

[1]	李斌, 闻媛, 宋丽, 等. 融合概念对齐信息的中文AMR语料库的构建[J]. 中文信息学报, 2017, 31(6): 93-102. LI B, WEN Y, SONG L, et al. Construction of Chinese AMR corpus integrating concept alignment information[J]. Journal of Chinese Information Processing, 2017, 31(6): 93-102. DOI:10.3969/j.issn.1003-0077.2017.06.013 (in Chinese)
[2]	周强. 汉语句法树库标注体系[J]. 中文信息学报, 2004(4): 1-8. ZHOU Q. Chinese syntax tree bank marking system[J]. Journal of Chinese Information Processing, 2004(4): 1-8. DOI:10.3969/j.issn.1003-0077.2004.04.001 (in Chinese)
[3]	郭丽娟. 汉语依存句法分析树库构建与应用研究[D]. 苏州: 苏州大学, 2019. GUO L J. Research on construction and application of Chinese dependent syntax analysis tree bank [D]. Suzhou: Suzhou University, 2019. (in Chinese)
[4]	曲维光, 周俊生, 吴晓东, 等. 自然语言句子抽象语义表示AMR研究综述[J]. 数据采集与处理, 2017, 32(1): 26-36. QU W G, ZHOU J S, WU X D, et al. A survey of AMR research on abstract semantic representation of natural language sentences[J]. Data Collection and Processing, 2017, 32(1): 26-36. (in Chinese)
[5]	胡裕树. 现代汉语[M]. 上海: 上海教育出版社, 1979. HU Y S. Modern Chinese[M]. Shanghai: Shanghai Education Press, 1979. (in Chinese)
[6]	邢福义, 汪国胜. 现代汉语[M]. 北京: 高等教育出版社, 2010. XING F Y, WANG G S. Modern Chinese[M]. Beijing: Higher Education Press, 2010. (in Chinese)
[7]	李婷玉, 王亚, 曹聪. 兼语语义类的分类研究[J]. 计算机应用研究, 2017, 34(1): 15-20. LI T Y, WANG Y, CAO C. A study on the classification of semantic classes of concurrent structure[J]. Application Research of Computers, 2017, 34(1): 15-20. DOI:10.3969/j.issn.1001-3695.2017.01.003 (in Chinese)
[8]	马德全, 王利民. 兼语句的语义分析[J]. 内蒙古民族大学学报(社会科学版), 2010, 36(4): 30-32. MA D Q, WANG L M. Semantic analysis of concurrent sentences[J]. Journal of Inner Mongolia University for Nationalities (Social Science Edition), 2010, 36(4): 30-32. DOI:10.3969/j.issn.1671-0215.2010.04.008 (in Chinese)
[9]	司玉英. 双宾兼语句的语法、语义和语用特征[J]. 内蒙古大学学报(哲学社会科学版), 2010, 42(1): 148-152. SI Y Y. The grammatical, semantic and pragmatic features of double-object sentences[J]. Journal of Inner Mongolia University for Nationalities (Social Science Edition), 2010, 42(1): 148-152. (in Chinese)
[10]	傅成宏. 现代汉语兼语结构的自动识别[D]. 南京: 南京师范大学, 2007. FU C H. Automatic recognition of modern Chinese concurrent structure [D]. Nanjing: Nanjing Normal University, 2007. (in Chinese)
[11]	陈静, 王东波, 谢靖, 等. 基于条件随机场的兼语结构自动识别[J]. 情报科学, 2012, 30(3): 439-443. CHEN J, WANG D B, XIE J, et al. Automatic recognition of concurrent structure based on conditional random field[J]. Information Science, 2012, 30(3): 439-443. (in Chinese)
[12]	PINHERIO R C P H O, PEDRO H. Recurrent convolutional neural networks for scene parsing [C]//International Conference of Machine Learning. Beijing, China: International Machine Learning Society (IMLS), 2014, 32(1): 82-90.
[13]	CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 357-370. DOI:10.1162/tacl_a_00104
[14]	LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition [C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. San Diego, CA, USA: Association for Computational Linguistics, 2016: 260-270.
[15]	ZHANG Y, YANG J. Chinese NER using lattice LSTM [C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Melbourne, Australia: Association for Computational Linguistics, 2018: 1554-1564.
[16]	王婷婷. 现代汉语兼语式的句法研究[D]. 烟台: 鲁东大学, 2017. WANG T T. A syntactic study of bi-Constituent construction in mandarin Chinese [D]. Yantai: Ludong University, 2017. (in Chinese)
[17]	张志公. 修辞概要[M]. 上海: 上海新知识出版社, 1957. ZHANG Z G. Rhetorical summary[M]. Shanghai: Shanghai New Knowledge Press, 1957. (in Chinese)
[18]	周强, 张伟, 俞士汶. 汉语树库的构建[J]. 中文信息学报, 1997(4): 43-52. ZHOU Q, ZHANG W, YU S W. Construction of Chinese tree bank[J]. Journal of Chinese Information Processing, 1997(4): 43-52. (in Chinese)
[19]	MA R T, PENG M L, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Seattle, WA, USA: Association for Computational Linguistics, 2020: 5951-5960.
[20]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, USA: Curran Associates Inc. 2017: 5998-6008.
[21]	GRAVES A, SCHMIDHUBER J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Networks, 2005, 18(5-6): 602-610.
[22]	MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]//Neural Information Processing Systems. Harrahs and Harveys, Lake Tahoe, USA: Advances in Neural Information Processing Systems, 2013: 3111-3119.
[23]	XUE N, XIA F, CHIOU F D, et al. The Penn Chinese TreeBank: Phrase structure annotation of a large corpus[J]. Natural Language Engineering, 2005, 11(2): 207-238.