融合双通道音节特征的藏文La格例句自动分类模型
班玛宝1,2,3, 才让加1,2,3,4,5,?, 张瑞1,2,3, 色差甲1,2,3, 卓玛扎西1,2,3 1. 青海师范大学计算机学院, 西宁 8100162. 藏语智能信息处理及应用国家重点实验室, 西宁 8100083. 青海省藏文信息处理工程技术研究中心, 西宁 8100084. 青海省藏文信息处理与机器翻译重点实验室, 西宁 8100085. 藏文信息处理教育部重点实验室, 西宁 810008收稿日期:
2021-06-12修回日期:
2021-08-07出版日期:
2022-01-20基金资助:
国家自然科学基金(61662061, 61063033, 61966031)、国家重点研发计划(2017YFB1402200)、青海省藏文信息处理与机器翻译重点实验室项目(2020-ZJ-Y05)、青海省科技厅项目(2019-SF-129)和青海省重点实验室项目(2013-Z-Y17, 2014-Z-Y32, 2015-Z-Y03)资助 An Automatic Classification Model of Tibetan La Case Example Sentenceswith Fusion Dual-channel Syllable Features
BAN Mabao1,2,3, CAI Rangjia1,2,3,4,5,?, ZHANG Rui1,2,3, SE Chajia1,2,3, ZHUO Mazhaxi1,2,3 1. College of Computer Science and Technology, Qinghai Normal University, Xining 8100162. The State Key Laboratory of Tibetan Intelligent Information Processing and Application, Xining 8100083. Tibetan Information Processing Engineering Technology and Research Center of Qinghai Province, Xining 8100084. Tibetan Information Processing and Machine Translation Key Laboratory of Qinghai Province, Xining 8100085. Key Laboratory of Tibetan Information Processing, Ministry of Education, Xining 810008Received:
2021-06-12Revised:
2021-08-07Published:
2022-01-20摘要/Abstract
摘要: 基于藏文La格例句的自动分类在藏语自然语言处理领域的重要性, 根据藏文La格的用法和添接规则, 在对藏文La格例句进行分类并定义分类概念的基础上, 提出一种融合双通道音节特征的藏文La格例句自动分类模型。该模型首先使用word2vec和 Glove构建双通道藏文音节嵌入, 分别在每路卷积中融合双通道音节特征, 丰富输入特征的表达和提高卷积层的空间表征能力; 然后在每一路卷积均使用结合层级注意力机制的Bi-LSTM学习时序特征后, 拼接多路特征, 提高上下文时序特征的学习能力; 最后通过全链接层和Softmax层实现藏文La格例句自动分类。实验结果表明, 该模型在测试集上的藏文La格例句分类准确率达到 90.26%。
引用本文
班玛宝, 才让加, 张瑞, 色差甲, 卓玛扎西. 融合双通道音节特征的藏文La格例句自动分类模型[J]. 北京大学学报自然科学版, 2022, 58(1): 91-98.
BAN Mabao, CAI Rangjia, ZHANG Rui, SE Chajia, ZHUO Mazhaxi. An Automatic Classification Model of Tibetan La Case Example Sentenceswith Fusion Dual-channel Syllable Features
[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(1): 91-98.
PDF全文下载地址:
http://xbna.pku.edu.cn/CN/article/downloadArticleFile.do?attachType=PDF&id=3703