

1. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046;
2. 中国科学院 自动化研究所, 模式识别国家重点实验室, 北京 100190
收稿日期: 2016-06-22
基金项目: 新疆大学优秀博士生创新项目(XJUBSCX-2012010);国家自然科学基金项目(61562081,61163033);新疆维吾尔自治区高新技术发展研究计划项目(201312103)
作者简介: 热合木·马合木提(1973-), 男, 博士研究生
通信作者: 艾斯卡尔·艾木都拉, 教授, E-mail:askar@xju.edu.cn
摘要:维吾尔语是属于阿尔泰语系的黏着性语言,构词特点比较复杂,尤其是维吾尔语中的人名,由于来源差别巨大,识别难度很高,到目前为止,还未出现成熟的维吾尔语人名识别工具。大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%,因此该文分别针对维吾尔语文本中出现的维吾尔族人名和汉族人名提出相应的识别方法。针对维吾尔族人名,提出基于字母的模糊匹配识别方法;针对汉族人名,借助机器翻译思想提出基于音字转换的识别方法。实验结果表明:所提方法识别维吾尔族人名F1值能够达到91.84%,识别汉族人名F1值能够达到95.86%。
关键词: 维吾尔语 人名识别 模糊匹配 音字转换
Name recognition in the Uyghur language based on fuzzy matching and syllable-character conversion
Abdurahim Mahmoud1, Hussein Yusuf1, ZHANG Jiajun2, ZONG Chengqing2, Askar Hamdulla1


1.School of Information Science and Engnineering, Xinjiang University, Urumqi 830046, China;
2.National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100190, China
Abstract:Uyghur is a very agglutinative language which belongs to the Altaic family of languages with a very complex morphology. Uyghur names have many origins, so they are difficult to analyze and recognize. Thus, there is no well-developed toolkit for name recognition in Uyghur. An investigation of a large Uyghur text shows that 83% of all the names are either Uyghur names or Chinese names. Therefore, this work focuses on these two kinds of names with specific solutions for recognizing them in Uyghur texts. A letter-based fuzzy matching method is used for the Uyghur names with a syllable-character conversion method based on a machine translation method for the Chinese names. Tests show that this method achieves a 91.84% F1 score for the Uyghur names and 95.86% for the Chinese names.
Key words: Uyghur languagename recognitionfuzzy matchingsyllable-character conversion
命名实体一般是句子意义的核心成分,主要包括人名、地名和机构名,在自然语言中传递着关键信息[1]。命名实体识别(named entity recognition, NER) 是众多自然语言处理任务(例如信息抽取、自动摘要、问答系统、机器翻译等) 的前提工作。很多语言,例如汉语、英语等都已有较为成熟的命名实体识别工具。相对而言,维吾尔语的命名实体识别研究仍处于初步阶段。由于维吾尔语是一种黏着语,语言现象丰富,构词特点复杂。因此,维吾尔语中命名实体识别的研究难度较高。
针对其他语言的已有的命名实体识别方法可以大致分为基于规则的方法、基于统计的方法和规则统计相混合的方法等。基于规则的方法[2-3]的优点是实现简单、速度快,而且由于人工编制的缘故,其规则准确率较高;该方法的缺点在于规则提取和编制过程费时、费力,规则的提取容易出错,而且人力资源成本较高,很难实现规模化[4]。另外,基于规则的方法带有一定的主观性。
与基于规则的方法相比,基于统计的方法具有很多优势:系统实现代价较小,可移植性好。目前常见的统计方法[5]主要有隐Markov模型(hidden Markov model,HMM)[6]、最大熵(maximum entropy, ME)[7]、支持向量机(support vector machine, SVM)[8]、条件随机场(conditional random field, CRF)[9-11]等。但是,基于统计的方法的主要缺陷在于对标注数据的过度依赖。一般地,统计方法寻找一种模型,使其最合理地解释标注数据。因此,标注数据越多,得到的模型将越可靠。然而,对数据进行人工标注成本高、费时费力,且无法保证语言现象分布的合理性。很多语言,例如维吾尔语,人工标注的资源非常少。
与上述两种方法相比,基于规则与统计的混合方法旨在兼具两者的优势。以人名识别为例,可以在统计方法中引入一些人名构成规则以提高人名识别的准确率。这种混合方法[12-14]可帮助解决统计方法对标注语料的依赖性[15]。
本文在对语言现象进行深入分析的基础上,针对维吾尔语中的人名设计了对应的识别方法。实际上,维吾尔语中的人名具有多种来源,包括维吾尔族人名、汉族人名以及来自其他语言的人名,例如哈萨克族人名、德语人名、英语人名等。许多语言中的人名构成具有很强的规律性。例如,英语中的人名一般首字母大写,汉族人名姓名用字非常集中,长度也相对固定。但是,维吾尔族人名,几乎没有任何规律可循,即维吾尔族人名既没有严格意义上的姓氏,长度也不固定。因此,对维吾尔族人名的识别无法使用姓氏驱动的方法,同时人名长度的不固定使得维吾尔族人名的自动识别更加困难。另外,经过音译后的汉族人名在维吾尔语中的表示已丢失姓名用字等显式特征,导致维吾尔语中汉族人名的识别难度显著增加。
本文通过对大量维吾尔语文本中的人名统计发现,维吾尔族人名和汉族人名共占据了约83%。因此,本文深入分析这两类人名的构成特点,并提出相应的识别方法。
1 维吾尔语人名的构成特点1.1 维吾尔族人名的构成特点在形式上,维吾尔族人名始终没有大小写区分,并且可以出现在句子中的任何位置。此外,有些维吾尔族人名兼有二义性。例如:人名


对比汉族人名,维吾尔族人名中没有专用的姓氏。只用父子连名制,用父名作为姓,其全名由本名和父名组成[16]。此外,汉族及维吾尔族人名形式不同。汉族人名姓在前名在后,维吾尔族人名排列次序恰好相反,名与姓(父名) 之间用空格隔开。
1.2 汉族人名的构成特点通常在维吾尔语中汉族人名书写时,按照汉字的发音为主进行音译转写[17]。例如:“李在铭,贾振红,向桂英,郑方……”写成“…




从以上例子中可以看出,汉族人名在维吾尔语中书写时,姓和名以空格分开。与此同时,汉族人名作为一种特殊名词,同样可以后接维吾尔语中的名词词缀。如果汉族人名后加上了相应的词缀,那么汉族人名与维吾尔族人名之间就没有明显的差异特征。因此,这种情况会显著增加汉族人名识别的难度。
此外,由于维吾尔语中的汉族人名不能以汉语拼音形式书写,因此汉族人名在拉丁化维吾尔语中的书写形式上存在一定的差别。例如:“王东”书写时一般会写成“waN duN”形式。显然,这是分别是把拼音“wang”转写为“waN”、“dong”转写为“duN”形式写成的。这说明汉族人名在拉丁化维吾尔语中书写时不仅会减少字母个数,而且原来的拼音特征也会消失。
2 维吾尔族人名的识别方法2.1 已有的维吾尔族人名识别研究文[18]使用的主要方法是以日常生活中常用的人名词典为基础,再加上一些对识别有帮助的上下文语境信息,采用一种以单词为单位的词典匹配方法进行人名识别。该方法的缺点在于对人名词典的依赖性太强;若是某个人名不在词典中,便直接导致匹配失败。这种基于词典的完全匹配方法在应用中受到很大限制:一方面,编撰词典费时费力、成本高;另一方面,人名不是一个封闭集合,在开放领域中很难通过词典匹配达到非常高的识别率。
随着自然语言处理中人名识别技术的逐渐成熟,维吾尔族人名识别方法也有了较大进步。在维吾尔族人名识别方法方面除了人名词典匹配方法之外,还有不少研究人员开始采用基于词典匹配与规则相结合的方法。通常这种融合方法在实施时,研究者在人工编写规则过程中引入了一些人名识别的上下文信息,例如:“

文[20]利用已标注的语料对CRF模型的参数进行训练。在整个研究过程中,除了上下文词形、词性和位置等信息作为特征模板的基本信息以外,还考虑到维吾尔语的黏着性,加入了一些维吾尔族人名的特征信息,包括词干、词缀和音节等。该方法的弱点首先在于它需要大规模已标注数据。此外,由于维吾尔族人名构成特点与其他语言有明显的不同,必需针对维吾尔族人名特点选取更详细、更有效的特征。因此,在使用CRF模型针对维吾尔族人名识别的过程中,最佳特征模板的确定也是一个难题。
2.2 基于模糊匹配的维吾尔族人名识别方法可见,基于规则的方法深度依赖于规则的准确性和覆盖率,而基于统计的方法受限于正确标注的训练语料。本文提出一种维吾尔族人名识别方法,基本不依赖于任何标注语料和人工规则,仅利用已有的词典信息,但其泛化能力与识别精度要显著优于基于词典完全匹配的方法。
众所周知,以整个单词为基本单位的匹配方法,例如词典匹配,不具有泛化能力,覆盖能力弱。这种方法对于未见过的维吾尔族人名,无法识别,尽管在很多情况下该人名可能与人名词典中的某个词仅有一两个字母不同,例如:人名





2.2.1 基于Dice系数的模糊匹配方法模糊匹配算法的核心就是寻找一种合适的相似度计算方法。近年来,研究人员提出若干种不同的相似度度量方法,例如Jaccard系数、Dice系数、互信息、向量相似度[21]等。若将维吾尔语单词表示为字母序列,本文的目标便是设计一种基于字符串的相似度度量算法。
假设本文不考虑字母之间的顺序关系,只是将每个单词视为字母的集合,那么Dice系数可能是度量相似度的比较理想的指标。
Dice系数是一种集合相似度度量函数,通常用于计算两个字符串的相似度。对于两个字符串S1和S2,它们的相似度为
${\rm{Sim}}\left( {{S_1},{S_2}} \right) = \frac{{2 \cdot {\rm{Comm}}\left( {{S_1},{S_2}} \right)}}{{{\rm{len}}\left( {{S_1}} \right) + {\rm{len}}\left( {{S_2}} \right)}}.$ | (1) |
若人名词典中存在人名“




2.2.2 基于编辑距离的模糊匹配方法Dice系数的计算方法没有考虑字母间的位置关系。采用该方法得到的相似度往往可靠性较低。例如:一般单词“


为了进一步考虑字母顺序的影响,本文引入了最小编辑距离的方法。编辑距离是计算文本相似度的一种快捷有效的方法,这种方法广泛应用于文本信息检索领域[22]。最小编辑距离,又称Levenshtein distance,具体指的是一个字符串转换为另一个字符串需要的最少编辑操作次数。编辑操作是指对字符串中某一个位置的字符进行插入、删除、替换或换位的操作[23]。
设S是由m个字符构成的目标字符串,而T是由n个字符构成的待匹配字符串。首先建立一个(m+1)×(n+1) 的矩阵D。两个字符串的每个字符分别放在D的行和列上,Di, j的值表示S前i个字符和T前j个字符之间的最小编辑距离,计算完成每个Di, j之后,矩阵中Dm, n的值就是两个字符串S和T的最小编辑距离。
本文通过计算Dice系数确认当前单词是否为真正人名,首先获取相似度值能满足阈值的候选词,然后分别计算这些已获取的候选词与当前目标单词之间的最小编辑距离。如果计算结果中存在一个编辑距离最小值并且满足固定的阈值,才能认定当前单词就是一个人名。这种方法能够弥补通过Dice系数确认人名的缺陷,并更精确地找到最佳人名候选单词。
2.2.3 维吾尔族人名识别系统流程一般而言,人名在文本中都不属于高频词。因此,本文通过对6万条维吾尔语句子进行词频统计,并且提取词频次数大于N(本文取N=150) 的单词集合来构造一个非人名词典,其包含1 062个词条。
另外,为了增强本文的基线系统,本文在调研维吾尔族人名构成特点相关的资料并通过测试的基础上,提炼出便于识别维吾尔族人名的最显著的两种规则,并建立了相应的词首音节和词尾音节库,词首音节库包含2条音节,词尾音节库包含10条音节。这些人名音节如表 1所示。
表 1 维吾尔族人名识别规则相应的音节
词首音节 | 词尾音节 |
![]() | ![]() |
表选项
维吾尔族人名识别规则可以描述如下:
1) 如果维吾尔文本中的某个单词以词首音节库中的任意一个字符串为开始,则当前单词属于人名。
2) 如果维吾尔文本中的某个单词以词尾音节库中的任意一个字符串为结束,则当前单词属于人名。
维吾尔族人名识别系统的主要流程如图 1所示,其中识别过程包括预处理、基于规则和词典匹配的识别、基于Dice系数和最小编辑距离算法的识别等主要步骤。
![]() |
图 1 维吾尔语人名识别系统流程 |
图选项 |
预处理部分包括维吾尔文转换为拉丁化维吾尔文、去除非维吾尔文字符、过滤停用词和非人名单词等部分。为了处理和统计方便,本文将维吾尔文转换成统一拉丁化维吾尔文时,使用的是由新疆大学智能信息处理重点实验提供的维吾尔文到拉丁化维吾尔文的转换工具。非维吾尔文字符是指与文本信息统计无关的特殊字符,包括单位符号、标点符号、数字、序列号、数学符号、多余的空格、拼音和特殊符号等。这些字符与人名识别无关,在文本预处理阶段需要去除。
此外,为了提升统计和处理效率、简化算法流程,本文对需要识别的文本根据非人名词典再次过滤非人名单词。
本文Dice系数的阈值范围为(0.5, 1),最小编辑距离的阈值范围为(0, 3)。在满足Dice系数阈值的前提下取最小编辑距离。
3 基于音字转换的汉族人名识别方法至今为止,维吾尔语文本中汉族人名的识别相关研究非常少。文[16]提出了在维吾尔语中对汉族人名识别时利用人名词典匹配的方法。像维吾尔族人名一样,汉族人名也不是一个封闭集合。因此,使用这种方法时,需要为不断出现新的人名建立丰富、全面的汉族人名词典,这显然是不现实的。
3.1 以汉语拼音为桥梁的维吾尔语汉族人名识别汉族人名虽然是一个开放集合,但是其姓氏用字相对集中。若能充分利用这一信息,维吾尔文中的汉族人名识别将不再困难。本文借鉴机器翻译的思想,并不直接在维吾尔文中识别汉族人名,而是以汉语拼音为桥梁,通过检验维吾尔语转换成汉语拼音后的文本中是否存在人名,从而判断维吾尔语文本中的单词是否为汉族人名。
为实施这一方法,需要解决3个问题:1) 如何建立较为全面的汉族人名的姓氏词典;2) 如何实现维吾尔文到汉语拼音的单词转换;3) 如何消除同音字。
对于第1个问题,本文利用汉语中的人名识别方法,从大规模汉语文本中挖掘出常用汉族人名,搜集其中的姓氏集合,并综合前人总结的汉族人名姓氏用字,最终得到一个较为全面的汉族人名姓氏词典。
对于第2个问题,本文发现维吾尔语中绝大部分的汉族人名是按照《现代维吾尔文学语言正字词典》中的中文转写成维吾尔文的相关规则而读写的。例如:将“…

第3个问题相对容易解决。本文不是以汉字为匹配单元,而是将汉族人名姓氏词典集合转换为姓氏拼音集合,以拼音为匹配单元。
3.1.1 汉语和维吾尔语间的音字转换为了便于处理和提高识别率,本文一开始就将维吾尔语文本转写成拉丁化维吾尔文。例如:“




从以上例句中可以知道,在人名单词“贾振红”(jiazhenhong?jya jenhoN)、“李在铭”(lizaiming?li zAymiN)、“张传武”(zhangchuanwu?jaN quanwu) 中姓氏的汉语拼音和拉丁化维吾尔文的匹配上既有完全匹配也有不完全匹配的情况。若能提出有效的方法将把不完全匹配的字的拼音与对应拉丁化维吾尔文之间建立可用的转换规则,这将有助于汉族人名的识别。
通过对汉语拼音和拉丁化维吾尔文之间的音字转换匹配分析,本文观察到,汉族人名在维吾尔语中的书写形式转写成拉丁化维吾尔文之后,汉语拼音和其拉丁化维吾尔文之间有一定的对应关系。经过对大量维吾尔语汉族人名进行统计和测试,本文总结出了汉语拼音和拉丁化维吾尔文之间的相互对应转写规则,如表 2所示。
表 2 汉语拼音与拉丁化维吾尔文相互转换的对应表(部分)
汉语拼音 | b | p | m | f | d | t | n | l | g | k | h | j | q | x | zh | ch | sh | r | z | c | s | y | a | o | e | i | u | ü | ai | ei | ui | ao | ou | iu | ie | üe | er | an | en | in | un | ang | eng | ing | ong | uo | uan | iao | ian | ün | iang | ua | uang | yu | qu | xu | guan | kuan | huan |
拉丁化维吾尔文 | b | p | m | f | d | t | n | l | g | k | H | j | c | x | j | c | x | r | z | s | s | y | a | o | e | i | u | U | Ay | ey | uy | aw | ow | yu | ye | O | er | An | en | in | Un | aN | eN | iN | uN | o | UAn | yaw | yAn | Un | yaN | ua | uaN | yU | cU | xU | guAn | kuAn | HuAn |
表选项
从表 2中可以看出,汉语拼音到拉丁化维吾尔文的音字转换过程中“b、p、t、f、d……”等25个字母不必转换。此外,在转写过程中需要注意“ao、iao与ang、iang……”等韵母的转换次序,应首先对长度较长的韵母转换,然后对长度较短的韵母分别转换,否则会发生转换错误,甚至就会出现错字。
3.1.2 姓氏词典为了得到高质量的姓氏词典,本文首先以中国科学院自动化研究所模式识别国家重点实验室提供的汉族人名常用姓氏表为主(其共有433个姓氏),获取每个姓氏字的汉语拼音。然后,使用汉语拼音与拉丁化维吾尔文之间的转换规则对已获取的姓氏词典进行音字转换并去重。最后,建立由216个拉丁化维吾尔文的汉族人名姓氏组成的姓氏词典。
3.1.3 汉族人名识别系统流程维吾尔文汉族人名识别系统的主要流程如图 2所示,其中包括预处理和基于词典匹配的识别。
![]() |
图 2 汉族人名识别系统流程 |
图选项 |
在汉族人名识别时,首先将把文本按照空格分词生成单词序列。然后,将拉丁化维吾尔文转换为拼音序列(转换失败的单词保留拉丁文形式)。最后,利用汉族人名姓氏词典,判别拼音序列中是否存在汉族人名,从而判断维吾尔语文本中是否存在汉族人名。如果当前单词与姓氏词典匹配成功,则将当前单词和当前单词的后一个单词确认为一个人名,否则继续匹配操作直至单词序列结束为止。
4 实验结果与分析人名识别效果的评测普遍采取的评价指标为正确率(P)、召回率(R) 和F1值。
正确率P的计算方法是
$P = \frac{{正确识别的人名个数}}{{识别出人名的总个数}} \times 100\% .$ | (2) |
$R = \frac{{正确识别的人名个数}}{{语料中人名的总个数}} \times 100\% .$ | (3) |
${F_1} = \frac{{2 \cdot \left( {P \times R} \right)}}{{P + R}} \times 100\% .$ | (4) |
表 3 基于模糊匹配的维吾尔族人名识别测试结果
词典词条 | 相似度阈值 | P/% | R/% | F1/% |
1 000 | >0.5 | 84.42 | 66.99 | 74.70 |
>0.6 | 85.51 | 64.71 | 73.67 | |
>0.7 | 87.93 | 58.13 | 69.99 | |
>0.8 | 94.43 | 42.27 | 58.40 | |
>0.9 | 98.58 | 27.72 | 43.27 | |
2000 | >0.5 | 77.66 | 74.88 | 76.24 |
>0.6 | 79.82 | 71.78 | 75.59 | |
>0.7 | 82.45 | 65.10 | 72.75 | |
>0.8 | 87.45 | 46.56 | 60.77 | |
>0.9 | 96.83 | 30.41 | 46.28 | |
5000 | >0.5 | 71.21 | 88.53 | 78.93 |
>0.6 | 73.11 | 87.54 | 77.74 | |
>0.7 | 76.35 | 82.05 | 79.10 | |
>0.8 | 87.39 | 71.19 | 78.35 | |
>0.9 | 97.68 | 50.45 | 66.54 | |
10 000 | >0.5 | 66.43 | 92.32 | 77.26 |
>0.6 | 67.39 | 92.52 | 77.98 | |
>0.7 | 70.78 | 91.03 | 79.64 | |
>0.8 | 80.75 | 83.25 | 81.98 | |
>0.9 | 94.63 | 68.49 | 79.47 | |
23 200 | >0.5 | 61.96 | 95.31 | 75.10 |
>0.6 | 62.20 | 95.31 | 75.27 | |
>0.7 | 64.99 | 95.11 | 77.22 | |
>0.8 | 74.66 | 94.02 | 83.23 | |
>0.9 | 91.66 | 92.02 | 91.84 |
表选项
从表 3中的结果可以发现很多有趣的现象: 1) 相似度阈值越高,识别性能也越高。2) 随着人名词典规模的扩大,整体人名识别的F1值也越来越高,例如,当词典包含23 200个词条、相似度阈值>0.9时,F1值已达到91.84%,识别率非常高。可见,维吾尔族人名词典在人名识别任务中起着十分关键的作用。3) 采用本文提出的基于模糊匹配的维吾尔族人名识别方法,当人名词典规模较小时,也能获得较好的识别效果。例如,当仅采用包含10 000个人名的词典时,本文方法也能得到超过80%的F1值。
考查相似度阈值的设置可以发现,随着阈值越来越大,人名识别的正确率逐步提高,但召回率逐步降低。总体上,对比不同词典规模和阈值对应的F1值,本文方法即使在词典规模非常小时,例如只包含1 000个人名,其识别率也还比较高。
本文通过多次实验测试发现, 在构造非人名词典(已有1 062词条) 时,应将具有一些特殊性的非人名词典补充单词尽量地录入进去。因为对这些单词而言,本文的相似度和最小编辑距离的方法不是很敏感,会在一定程度上导致识别精确率的降低。一些非人名词典补充单词实例如表 4所示。
表 4 非人名词典补充单词实例
补充单词 | 参考人名单词 |
![]() | ![]() |
表选项
4.2 基于音字转换的汉族人名识别本实验所用的实验材料主要是从人民网和天山网上抓取的包含人名的550个维吾尔语句子。其中总共有汉族人名712个;没有汉族人名的句子45个;只有1个汉族人名的句子390个;至少有2个汉族人名的句子115个。此外,姓氏词典包含216个姓氏。采用与维吾尔族人名识别相同的评价方法。实验测试结果为P=95.92%、R=95.79%、F1=95.86%。实验结果表明,本文基于汉语拼音转换的汉族人名识别方法的效果较好,能够正确识别维吾尔语文本中的绝大多数汉族人名。
通过错误分析发现,识别错误的原因主要有以下几种:1) 由于不同人有不同的书写习惯,在所有测试句子中,有22个汉族人名的书写格式有误。2) 汉族人名姓氏词典中一些词条与句子中的有些单词之间发生冲突。例如,句子中一般单词“pAn teHnika”(科技) 中“pAn”与姓氏词典中的“pAn”(潘) 相同,因此系统错误地认为该单词是人名;句子中常见词“su”(水) 与姓氏词典中的“su”完全相同,系统按照规则错误地将该单词及其后面的单词组成一个人名。在后续的工作中,本文将重点解决这些问题。
4.3 基于模糊匹配与音字转换的维吾尔语人名识别为了验证基于模糊匹配与音字转换的维吾尔语人名识别方法联合使用的效果,本文对同一个维吾尔语文本(既包含维吾尔族人名,又同时包含汉族人名) 进行测试。首先,本文重新收集了实验测试材料。该材料由500个句子组成,其中400句从本实验室使用的3 000句语料中随机抽取获得,另外100条新句子从网上抓取。其中总共包含225个汉族人名和338个维吾尔族人名。然后,采用基于模糊匹配与音字转换的维吾尔语人名识别方法进行汉族人名与维吾尔族人名的识别测试。
本文首先进行汉族人名的识别,然后再进行维吾尔族人名的识别。之所以首先对汉族人名进行识别测试,是因为在汉族人名的识别过程中文本结构及内容无需任何移动(比如不需要将每个单词切分为字母序列)。汉族人名的测试结果为P=94.49%、R=99.11%、F1=96.74%。此实验结果再次表明基于音字转换的汉族人名识别方法的有效性。
接下来,采用基于模糊匹配的方法对此文本进行维吾尔族人名识别测试。与单独维吾尔族人名识别测试相比,本次实验的不同之处在于先将已经识别出来的汉族人名和非人名单词在对维吾尔族人名识别前一起过滤掉。这样可以减少要匹配单词的数量,避免汉族人名信息对维吾尔族人名识别的影响。此实验中,最小编辑距离的阈值范围不变。对维吾尔族人名整体识别的联合实验测试结果如表 5所示,其结果与单独进行维吾尔族人名识别结果相比,略有提升。
表 5 维吾尔族人名整体识别联合实验测试结果
词典词条 | 相似度阈值 | P/% | R/% | F1/% |
2 000 | >0.6 | 54.45 | 83.42 | 65.89 |
>0.7 | 60.23 | 79.79 | 68.65 | |
>0.8 | 75.05 | 64.42 | 69.33 | |
>0.9 | 92.20 | 55.09 | 68.97 | |
5 000 | >0.6 | 47.83 | 93.44 | 63.27 |
>0.7 | 53.93 | 91.19 | 67.78 | |
>0.8 | 71.49 | 83.59 | 77.07 | |
>0.9 | 91.09 | 72.37 | 80.65 | |
10 000 | >0.6 | 42.09 | 96.89 | 58.68 |
>0.7 | 46.68 | 95.85 | 62.78 | |
>0.8 | 60.92 | 91.02 | 72.99 | |
>0.9 | 83.61 | 79.27 | 81.38 | |
23 200 | >0.6 | 37.14 | 98.29 | 53.91 |
>0.7 | 39.48 | 97.18 | 56.15 | |
>0.8 | 51.54 | 96.48 | 67.19 | |
>0.9 | 76.87 | 95.95 | 85.36 |
表选项
从表 5中的结果可以看出,当本文对同一个文本进行维吾尔族人名识别和汉族人名识别联合测试时,本文方法仍能获得相当好的识别结果,并且F1值达到85.36%。这说明本文方法不仅在维吾尔语人名的整体识别过程中能够发挥优势,且具有鲁棒性。
5 结语本文针对维吾尔族人名的识别,提出了基于字母的模糊匹配方法。该方法融合了规则与传统人名词典匹配方法,不完全依赖于语料库的规模,也不需要过多的人工整理工作,更不需要有大量的标注语料;针对汉族人名识别,本文利用汉语拼音到拉丁化维吾尔文的音字转换的特点,提出基于拼音匹配的识别方法。该方法明显地提高维吾尔文本中汉族人名识别的正确率(由原来的91.66%提高到95.92%) 和召回率(由原来的92.02%提高到95.79%)。另外,本文同时进行了两种方法的联合测试,实验结果显示,本文提出的方法不仅有效,而且比较鲁棒。
目前,此研究虽然得到较好的识别效果,但是与维吾尔语词形态与构词方法相关的一系列具体问题还有待解决,例如词的单数和复数形式、词缀、词尾、构词模式等。如果能有效地把这些语法知识融入此方法,相信会得到更佳的识别效果。
参考文献
[1] | Journal of Central South University(Science and Technology), 41(2):649-654.-->陈钰枫, 宗成庆, 苏克毅. 汉英双语命名实体识别与对齐的交互式方法[J]. 计算机学报, 2011, 34(9): 1688–1696.CHEN Yufeng, ZONG Chengqing, SU Keh-Yih. Joint Chinese-English name entity recognition and alignment[J]. Chinese Journal of Computers, 2011, 34(9): 1688–1696. DOI:10.3724/SP.J.1016.2011.01688(in Chinese) |
[2] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Elsebai A, Meziane F, Belkredim F Z. A rule based persons names Arabic extraction system[J]. Communications of the IBIMA, 2009, 11: 53–60. |
[3] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Aboaoga M, Aziz M J A. Arabic person names recognition by using a rule based approach[J]. Journal of Computer Science, 2013, 9(7): 922–927. DOI:10.3844/jcssp.2013.922.927 |
[4] | Journal of Central South University(Science and Technology), 41(2):649-654.-->姜伟. 基于规则的中文人名识别与抽取关键技术研究[J]. 科技创新导报, 2012, 28: 65–66.JIANG Wei. Research on key technology of Chinese name recognition and extraction based on rules[J]. Science and Technology Innovation Herald, 2012, 28: 65–66. (in Chinese) |
[5] | Journal of Central South University(Science and Technology), 41(2):649-654.-->宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2013.ZONG Chengqing. Statistical Natural Language Processing[M]. Beijing: Tsinghua University Press, 2013. (in Chinese) |
[6] | Journal of Central South University(Science and Technology), 41(2):649-654.-->俞鸿魁, 张华平, 刘群, 等. 基于层叠隐马尔可夫模型的中文命名实体识别[J]. 通信学报, 2006, 27(2): 87–94.YU Hongkui, ZHANG Huaping, LIU Qun, et al. Chinese named entity identification using cascaded hidden Markov model[J]. Journal on Communications, 2006, 27(2): 87–94. (in Chinese) |
[7] | Journal of Central South University(Science and Technology), 41(2):649-654.-->钱晶, 张玥杰, 张涛. 基于最大熵的汉语人名地名识别方法研究[J]. 小型微型计算机系统, 2006, 27(9): 1761–1766.QIAN Jing, ZHANG Yuejie, ZHANG Tao. Research on Chinese person name and location name recognition based on maximum entropy model[J]. Journal of Chinese Mini-Micro Computer Systems, 2006, 27(9): 1761–1766. (in Chinese) |
[8] | Journal of Central South University(Science and Technology), 41(2):649-654.-->赵伟, 李丹. SVM与错误驱动学习相结合的中文人名识别[J]. 长春工业大学学报:自然科学版, 2009, 30(4): 396–400.ZHAO Wei, LI Dan. Chinese name identification based on both support vector machine and error-driven learning[J]. Journal of Changchun University of Technology:Natural Science Edition, 2009, 30(4): 396–400. (in Chinese) |
[9] | Journal of Central South University(Science and Technology), 41(2):649-654.-->唐钊. 条件随机场模型在中文人名识别中的研究与实现[J]. 现代计算机, 2012(21): 3–7.TANG Zhao. Research and implementation of conditional random field model in Chinese personal name recognition[J]. Modern Computer, 2012(21): 3–7. (in Chinese) |
[10] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Muhtar Arkin, Rahim Mahmut, Askar Hamdulla. Person name recognition for Uyghur using conditional random fields[J]. International Journal of Computer Science Issues, 2013, 10(2): 130–136. |
[11] | Journal of Central South University(Science and Technology), 41(2):649-654.-->LI Lishuang, HUANG Degen, LI Dan. Recognizing Chinese person names based on hybrid models[J]. International Journal of Advanced Intelligence, 2011, 3(2): 219–228. |
[12] | Journal of Central South University(Science and Technology), 41(2):649-654.-->潘正高. 基于规则和统计相结合的中文命名实体识别研究[J]. 情报科学, 2012, 30(5): 708–714.PAN Zhenggao. Research on the recognition of Chinese named entity based on rules and statistics[J]. Information Science, 2012, 30(5): 708–714. (in Chinese) |
[13] | Journal of Central South University(Science and Technology), 41(2):649-654.-->和雪娟, 陈玉华, 高丽金, 等. 基于统计和规则混合策略的中国人名识别研究[J]. 云南民族大学学报:自然科学版, 2009, 18(1): 70–74.HE Xuejuan, CHEN Yuhua, GAO Lijin, et al. On the identifying system for Chinese names based on a combination of statistic analysis and rules[J]. Journal of Yunnan Nationalities University:Natural Sciences Edition, 2009, 18(1): 70–74. (in Chinese) |
[14] | Journal of Central South University(Science and Technology), 41(2):649-654.-->闫萍. 基于规则和概率统计相结合的中文命名实体识别研究[J]. 计算机与数字工程, 2011, 39(9): 88–92.YAN Ping. Research on the identification for Chinese named entity based on combination of rules and statistic analysis[J]. Computer and Digital Engineering, 2011, 39(9): 88–92. (in Chinese) |
[15] | Journal of Central South University(Science and Technology), 41(2):649-654.-->窦嵘, 加羊吉, 黄伟. 统计与规则相结合的藏文人名自动识别研究[J]. 长春工业大学学报:自然科学版, 2010, 11(2): 113–115.DOU Rong, JIA Yangji, HUANG Wei. Automatic recognition of Tibetan name with the combination of statistics and regular[J]. Journal of Changchun University of Technology:Natural Science Edition, 2010, 11(2): 113–115. (in Chinese) |
[16] | Journal of Central South University(Science and Technology), 41(2):649-654.-->李佳正, 刘凯, 麦热哈巴·艾力, 等. 维吾尔语中汉族人名的识别及翻译[J]. 中文信息学报, 2011, 25(4): 82–87.LI Jiazheng, LIU Kai, Mairehaba Aili, et al. Recognition and translation for Chinese names in Uyghur language[J]. Journal of Chinese Information Processing, 2011, 25(4): 82–87. (in Chinese) |
[17] | Journal of Central South University(Science and Technology), 41(2):649-654.-->新疆维吾尔自治区民族语言文字工作委员会. 现代维吾尔文学语言正字词典[M]. 乌鲁木齐: 新疆人民出版社, 2009.Xinjiang Uyghur Autonomous Region Ethnic Language Work Committee. Modern Uyghur Literary Language Orthography Dictionary[M]. Urumqi: Xinjiang People's Publishing House, 2009. (in Chinese) |
[18] | Journal of Central South University(Science and Technology), 41(2):649-654.-->Gulila Altenbek. Rule-based person name recognition for Xinjiang minority languages[J]. Journal of Chinese Language and Computing, 2005, 15(4): 219–226. |
[19] | Journal of Central South University(Science and Technology), 41(2):649-654.-->冯鲸华, 古丽拉·阿东别克, 吴守用, 等. 基于位置概率模型的哈萨克语人名识别[J]. 计算机应用与软件, 2010, 27(12): 21–24.FENG Jinghua, Gulila Altenbek, WU Shouyong, et al. Kazakh personal name recognition based on position probability model[J]. Computer Applications and Software, 2010, 27(12): 21–24. (in Chinese) |
[20] | Journal of Central South University(Science and Technology), 41(2):649-654.-->艾斯卡尔·肉孜, 宗成庆, 姑丽加玛丽·麦麦提艾力, 等. 基于条件随机场的维吾尔人名识别方法[J]. 清华大学学报:自然科学版, 2013, 53(6): 873–877.Askar Rozi, ZONG Chengqing, Guljamal Mamateli, et al. Approach to recognition Uyghur names based on conditional random fields[J]. Journal of Tsinghua University:Science and Technology, 2013, 53(6): 873–877. (in Chinese) |
[21] | Journal of Central South University(Science and Technology), 41(2):649-654.-->秦佳, 杨建峰, 薛彬, 等. 基于向量相似度匹配准则的图像配准与拼接[J]. 微电子学与计算机, 2013, 30(6): 22–25.QIN Jia, YANG Jianfeng, XUE Bin, et al. Image registration and mosaic based on vector similarity matching principle[J]. Micro-Electronics & Computer, 2013, 30(6): 22–25. (in Chinese) |
[22] | Journal of Central South University(Science and Technology), 41(2):649-654.-->赵亚慧. 基于编辑距离的中文机构名简称检索方法研究[J]. 内蒙古科技与经济, 2010(7): 69–70.ZHAO Yahui. Research on Chinese institutions name retrieval method based on edit distance[J]. Inner Mongolia Science Technology & Economy, 2010(7): 69–70. (in Chinese) |
[23] | Journal of Central South University(Science and Technology), 41(2):649-654.-->包西林, 郭辰, 吴敏, 等. 自动拼写校对的算法设计与系统实现[J]. 科技和产业, 2013, 13(2): 144–148.BAO Xilin, GUO Chen, WU Min, et al. The design and system implementation of automated spelling check algorithm[J]. Science Technology and Industry, 2013, 13(2): 144–148. (in Chinese) |