基于模糊匹配与音字转换的维吾尔语人名识别

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

(普拉提) 也可以用于表示“钢”，

(阿力木) 也可以用于“科学家”的称谓。
对比汉族人名，维吾尔族人名中没有专用的姓氏。只用父子连名制，用父名作为姓，其全名由本名和父名组成^[16]。此外，汉族及维吾尔族人名形式不同。汉族人名姓在前名在后，维吾尔族人名排列次序恰好相反，名与姓(父名) 之间用空格隔开。
1.2 汉族人名的构成特点通常在维吾尔语中汉族人名书写时，按照汉字的发音为主进行音译转写^[17]。例如：“李在铭，贾振红，向桂英，郑方……”写成“…

…”形式；“刘刚，杨文，钟军……”写成“

”形式等。
从以上例子中可以看出，汉族人名在维吾尔语中书写时，姓和名以空格分开。与此同时，汉族人名作为一种特殊名词，同样可以后接维吾尔语中的名词词缀。如果汉族人名后加上了相应的词缀，那么汉族人名与维吾尔族人名之间就没有明显的差异特征。因此，这种情况会显著增加汉族人名识别的难度。
此外，由于维吾尔语中的汉族人名不能以汉语拼音形式书写，因此汉族人名在拉丁化维吾尔语中的书写形式上存在一定的差别。例如：“王东”书写时一般会写成“waN duN”形式。显然，这是分别是把拼音“wang”转写为“waN”、“dong”转写为“duN”形式写成的。这说明汉族人名在拉丁化维吾尔语中书写时不仅会减少字母个数，而且原来的拼音特征也会消失。
2 维吾尔族人名的识别方法2.1 已有的维吾尔族人名识别研究文[18]使用的主要方法是以日常生活中常用的人名词典为基础，再加上一些对识别有帮助的上下文语境信息，采用一种以单词为单位的词典匹配方法进行人名识别。该方法的缺点在于对人名词典的依赖性太强；若是某个人名不在词典中，便直接导致匹配失败。这种基于词典的完全匹配方法在应用中受到很大限制：一方面，编撰词典费时费力、成本高；另一方面，人名不是一个封闭集合，在开放领域中很难通过词典匹配达到非常高的识别率。
随着自然语言处理中人名识别技术的逐渐成熟，维吾尔族人名识别方法也有了较大进步。在维吾尔族人名识别方法方面除了人名词典匹配方法之外，还有不少研究人员开始采用基于词典匹配与规则相结合的方法。通常这种融合方法在实施时，研究者在人工编写规则过程中引入了一些人名识别的上下文信息，例如：“

”(叔叔、婆婆、姐姐、哥哥、老师、师傅……) 等表示称谓的词汇。虽然人工编写规则对于识别结果精确度有较大贡献，但是这些规则往往依赖于具体的语言领域和文本体裁，需要经验丰富的专家才能完成，而且存在编制过程耗时并容易产生错误等缺点^[19]。
文[20]利用已标注的语料对CRF模型的参数进行训练。在整个研究过程中，除了上下文词形、词性和位置等信息作为特征模板的基本信息以外，还考虑到维吾尔语的黏着性，加入了一些维吾尔族人名的特征信息，包括词干、词缀和音节等。该方法的弱点首先在于它需要大规模已标注数据。此外，由于维吾尔族人名构成特点与其他语言有明显的不同，必需针对维吾尔族人名特点选取更详细、更有效的特征。因此，在使用CRF模型针对维吾尔族人名识别的过程中，最佳特征模板的确定也是一个难题。
2.2 基于模糊匹配的维吾尔族人名识别方法可见，基于规则的方法深度依赖于规则的准确性和覆盖率，而基于统计的方法受限于正确标注的训练语料。本文提出一种维吾尔族人名识别方法，基本不依赖于任何标注语料和人工规则，仅利用已有的词典信息，但其泛化能力与识别精度要显著优于基于词典完全匹配的方法。
众所周知，以整个单词为基本单位的匹配方法，例如词典匹配，不具有泛化能力，覆盖能力弱。这种方法对于未见过的维吾尔族人名，无法识别，尽管在很多情况下该人名可能与人名词典中的某个词仅有一两个字母不同，例如：人名

(阿吾提，萨吾提，达吾提)、

(麦麦提，赛麦提，艾麦提)、

(司马义) 等。可见，若能在词典匹配方法的基础上提出一种有效的模糊匹配方法，维吾尔族人名识别的准确性和覆盖率将能得到很大的改善。
2.2.1 基于Dice系数的模糊匹配方法模糊匹配算法的核心就是寻找一种合适的相似度计算方法。近年来，研究人员提出若干种不同的相似度度量方法，例如Jaccard系数、Dice系数、互信息、向量相似度^[21]等。若将维吾尔语单词表示为字母序列，本文的目标便是设计一种基于字符串的相似度度量算法。
假设本文不考虑字母之间的顺序关系，只是将每个单词视为字母的集合，那么Dice系数可能是度量相似度的比较理想的指标。
Dice系数是一种集合相似度度量函数，通常用于计算两个字符串的相似度。对于两个字符串S₁和S₂，它们的相似度为

${\rm{Sim}}\left( {{S_1},{S_2}} \right) = \frac{{2 \cdot {\rm{Comm}}\left( {{S_1},{S_2}} \right)}}{{{\rm{len}}\left( {{S_1}} \right) + {\rm{len}}\left( {{S_2}} \right)}}.$

(1)

其中：Comm (S₁, S₂) 是S₁，S₂中相同字符的个数；len (S₁) 是字符串S₁的长度；len (S₂) 是字符串S₂的长度。Sim (S₁, S₂) 的取值范围为[0, 1]。
若人名词典中存在人名“

”(卡迪尔)，但是在实际文本中遇见“

”(纳迪尔)，将这两个单词转变为字母序列“

”和“

”以后，按照式(1) Dice系数公式计算，便得到这两个单词的相似度系数为0.80。通过该值基本上可以推断当前单词也是一个人名。因此，本文首先利用Dice系数计算两个字符串的相似度，然后进行模糊匹配操作。这样在一定程度上能有效地减少事先必备的人名词典中的人名条数，也有利于提高对维吾尔族人名中常见的少数字母不同的人名的识别率。
2.2.2 基于编辑距离的模糊匹配方法Dice系数的计算方法没有考虑字母间的位置关系。采用该方法得到的相似度往往可靠性较低。例如：一般单词“

”(英明) 与人名单词“

”(夏米西丁) 之间相似度为0.82，在这里Dice系数虽然是很高，但是该单词不是一个人名。
为了进一步考虑字母顺序的影响，本文引入了最小编辑距离的方法。编辑距离是计算文本相似度的一种快捷有效的方法，这种方法广泛应用于文本信息检索领域^[22]。最小编辑距离，又称Levenshtein distance，具体指的是一个字符串转换为另一个字符串需要的最少编辑操作次数。编辑操作是指对字符串中某一个位置的字符进行插入、删除、替换或换位的操作^[23]。
设S是由m个字符构成的目标字符串，而T是由n个字符构成的待匹配字符串。首先建立一个(m+1)×(n+1) 的矩阵D。两个字符串的每个字符分别放在D的行和列上，D_{i, j}的值表示S前i个字符和T前j个字符之间的最小编辑距离，计算完成每个D_{i, j}之后，矩阵中D_{m, n}的值就是两个字符串S和T的最小编辑距离。
本文通过计算Dice系数确认当前单词是否为真正人名，首先获取相似度值能满足阈值的候选词，然后分别计算这些已获取的候选词与当前目标单词之间的最小编辑距离。如果计算结果中存在一个编辑距离最小值并且满足固定的阈值，才能认定当前单词就是一个人名。这种方法能够弥补通过Dice系数确认人名的缺陷，并更精确地找到最佳人名候选单词。
2.2.3 维吾尔族人名识别系统流程一般而言，人名在文本中都不属于高频词。因此，本文通过对6万条维吾尔语句子进行词频统计，并且提取词频次数大于N(本文取N=150) 的单词集合来构造一个非人名词典，其包含1 062个词条。
另外，为了增强本文的基线系统，本文在调研维吾尔族人名构成特点相关的资料并通过测试的基础上，提炼出便于识别维吾尔族人名的最显著的两种规则，并建立了相应的词首音节和词尾音节库，词首音节库包含2条音节，词尾音节库包含10条音节。这些人名音节如表 1所示。
表 1 维吾尔族人名识别规则相应的音节

词首音节	词尾音节

表选项

维吾尔族人名识别规则可以描述如下：
1) 如果维吾尔文本中的某个单词以词首音节库中的任意一个字符串为开始，则当前单词属于人名。
2) 如果维吾尔文本中的某个单词以词尾音节库中的任意一个字符串为结束，则当前单词属于人名。
维吾尔族人名识别系统的主要流程如图 1所示，其中识别过程包括预处理、基于规则和词典匹配的识别、基于Dice系数和最小编辑距离算法的识别等主要步骤。

图 1 维吾尔语人名识别系统流程

图选项

预处理部分包括维吾尔文转换为拉丁化维吾尔文、去除非维吾尔文字符、过滤停用词和非人名单词等部分。为了处理和统计方便，本文将维吾尔文转换成统一拉丁化维吾尔文时，使用的是由新疆大学智能信息处理重点实验提供的维吾尔文到拉丁化维吾尔文的转换工具。非维吾尔文字符是指与文本信息统计无关的特殊字符，包括单位符号、标点符号、数字、序列号、数学符号、多余的空格、拼音和特殊符号等。这些字符与人名识别无关，在文本预处理阶段需要去除。
此外，为了提升统计和处理效率、简化算法流程，本文对需要识别的文本根据非人名词典再次过滤非人名单词。
本文Dice系数的阈值范围为(0.5, 1)，最小编辑距离的阈值范围为(0, 3)。在满足Dice系数阈值的前提下取最小编辑距离。
3 基于音字转换的汉族人名识别方法至今为止，维吾尔语文本中汉族人名的识别相关研究非常少。文[16]提出了在维吾尔语中对汉族人名识别时利用人名词典匹配的方法。像维吾尔族人名一样，汉族人名也不是一个封闭集合。因此，使用这种方法时，需要为不断出现新的人名建立丰富、全面的汉族人名词典，这显然是不现实的。
3.1 以汉语拼音为桥梁的维吾尔语汉族人名识别汉族人名虽然是一个开放集合，但是其姓氏用字相对集中。若能充分利用这一信息，维吾尔文中的汉族人名识别将不再困难。本文借鉴机器翻译的思想，并不直接在维吾尔文中识别汉族人名，而是以汉语拼音为桥梁，通过检验维吾尔语转换成汉语拼音后的文本中是否存在人名，从而判断维吾尔语文本中的单词是否为汉族人名。
为实施这一方法，需要解决3个问题：1) 如何建立较为全面的汉族人名的姓氏词典；2) 如何实现维吾尔文到汉语拼音的单词转换；3) 如何消除同音字。
对于第1个问题，本文利用汉语中的人名识别方法，从大规模汉语文本中挖掘出常用汉族人名，搜集其中的姓氏集合，并综合前人总结的汉族人名姓氏用字，最终得到一个较为全面的汉族人名姓氏词典。
对于第2个问题，本文发现维吾尔语中绝大部分的汉族人名是按照《现代维吾尔文学语言正字词典》中的中文转写成维吾尔文的相关规则而读写的。例如：将“…

”(周通驰，王宝柱，李平……) 可以转写成“jow toNqi，wang bawju，li piN…”等。而且，通常在维吾尔语中汉族人名书写时，该人名以空格将姓和名之间隔开。另外，当前人名单词的汉语拼音撰写方式及其拉丁化维吾尔文撰写方式的差异极小，例如：liping (汉语拼音)?li piN (拉丁化维吾尔文)。通过分析本文发现，除了汉族人名，其他的维吾尔语文本中的词语从拉丁化维吾尔文转换成汉语拼音后就没有什么实际意义了，只是一些无意义音节。因此，本文假设，通过音字转换可以将维吾尔语文本句子直接变换成拼音序列；而后，通过识别拼音序列中对应汉族人名，通过反向识别方式可以确定原维吾尔语文本中的汉族人名。
第3个问题相对容易解决。本文不是以汉字为匹配单元，而是将汉族人名姓氏词典集合转换为姓氏拼音集合，以拼音为匹配单元。
3.1.1 汉语和维吾尔语间的音字转换为了便于处理和提高识别率，本文一开始就将维吾尔语文本转写成拉丁化维吾尔文。例如：“

”(贾振红讲话)→jya jenhoN sOz qildi；“

”(李在铭参会)→li zAymiN yeGinGa qatnaxti；“

”(张传武来访过新疆)→jaN quanwu xinjaNni ziyarAt qilGan等。
从以上例句中可以知道，在人名单词“贾振红”(jiazhenhong?jya jenhoN)、“李在铭”(lizaiming?li zAymiN)、“张传武”(zhangchuanwu?jaN quanwu) 中姓氏的汉语拼音和拉丁化维吾尔文的匹配上既有完全匹配也有不完全匹配的情况。若能提出有效的方法将把不完全匹配的字的拼音与对应拉丁化维吾尔文之间建立可用的转换规则，这将有助于汉族人名的识别。
通过对汉语拼音和拉丁化维吾尔文之间的音字转换匹配分析，本文观察到，汉族人名在维吾尔语中的书写形式转写成拉丁化维吾尔文之后，汉语拼音和其拉丁化维吾尔文之间有一定的对应关系。经过对大量维吾尔语汉族人名进行统计和测试，本文总结出了汉语拼音和拉丁化维吾尔文之间的相互对应转写规则，如表 2所示。
表 2 汉语拼音与拉丁化维吾尔文相互转换的对应表(部分)

汉语拼音	b	p	m	f	d	t	n	l	g	k	h	j	q	x	zh	ch	sh	r	z	c	s	y	a	o	e	i	u	ü	ai	ei	ui	ao	ou	iu	ie	üe	er	an	en	in	un	ang	eng	ing	ong	uo	uan	iao	ian	ün	iang	ua	uang	yu	qu	xu	guan	kuan	huan
拉丁化维吾尔文	b	p	m	f	d	t	n	l	g	k	H	j	c	x	j	c	x	r	z	s	s	y	a	o	e	i	u	U	Ay	ey	uy	aw	ow	yu	ye	O	er	An	en	in	Un	aN	eN	iN	uN	o	UAn	yaw	yAn	Un	yaN	ua	uaN	yU	cU	xU	guAn	kuAn	HuAn

表选项

从表 2中可以看出，汉语拼音到拉丁化维吾尔文的音字转换过程中“b、p、t、f、d……”等25个字母不必转换。此外，在转写过程中需要注意“ao、iao与ang、iang……”等韵母的转换次序，应首先对长度较长的韵母转换，然后对长度较短的韵母分别转换，否则会发生转换错误，甚至就会出现错字。
3.1.2 姓氏词典为了得到高质量的姓氏词典，本文首先以中国科学院自动化研究所模式识别国家重点实验室提供的汉族人名常用姓氏表为主(其共有433个姓氏)，获取每个姓氏字的汉语拼音。然后，使用汉语拼音与拉丁化维吾尔文之间的转换规则对已获取的姓氏词典进行音字转换并去重。最后，建立由216个拉丁化维吾尔文的汉族人名姓氏组成的姓氏词典。
3.1.3 汉族人名识别系统流程维吾尔文汉族人名识别系统的主要流程如图 2所示，其中包括预处理和基于词典匹配的识别。

图 2 汉族人名识别系统流程

图选项

在汉族人名识别时，首先将把文本按照空格分词生成单词序列。然后，将拉丁化维吾尔文转换为拼音序列(转换失败的单词保留拉丁文形式)。最后，利用汉族人名姓氏词典，判别拼音序列中是否存在汉族人名，从而判断维吾尔语文本中是否存在汉族人名。如果当前单词与姓氏词典匹配成功，则将当前单词和当前单词的后一个单词确认为一个人名，否则继续匹配操作直至单词序列结束为止。
4 实验结果与分析人名识别效果的评测普遍采取的评价指标为正确率(P)、召回率(R) 和F₁值。
正确率P的计算方法是

$P = \frac{{正确识别的人名个数}}{{识别出人名的总个数}} \times 100\% .$

(2)

召回率R的计算方法是

$R = \frac{{正确识别的人名个数}}{{语料中人名的总个数}} \times 100\% .$

(3)

F₁值的计算方法是

${F_1} = \frac{{2 \cdot \left( {P \times R} \right)}}{{P + R}} \times 100\% .$

(4)

4.1 基于模糊匹配的维吾尔族人名识别本实验所用的实验材料主要是从人民网(http://uyghur.people.com.cn/) 和天山网(http://www.xjtsnews.com/) 上抓取包含人名的557个维吾尔语句子。其中共有1 003个维吾尔族人名；每个句子中至少存在1个人名；人名词典所包含的词条分别是随机定量抽取的。实验测试结果如表 3所示。
表 3 基于模糊匹配的维吾尔族人名识别测试结果

词典词条	相似度阈值	P/%	R/%	F₁/%
1 000	>0.5	84.42	66.99	74.70
	>0.6	85.51	64.71	73.67
	>0.7	87.93	58.13	69.99
	>0.8	94.43	42.27	58.40
	>0.9	98.58	27.72	43.27
2000	>0.5	77.66	74.88	76.24
	>0.6	79.82	71.78	75.59
	>0.7	82.45	65.10	72.75
	>0.8	87.45	46.56	60.77
	>0.9	96.83	30.41	46.28
5000	>0.5	71.21	88.53	78.93
	>0.6	73.11	87.54	77.74
	>0.7	76.35	82.05	79.10
	>0.8	87.39	71.19	78.35
	>0.9	97.68	50.45	66.54
10 000	>0.5	66.43	92.32	77.26
	>0.6	67.39	92.52	77.98
	>0.7	70.78	91.03	79.64
	>0.8	80.75	83.25	81.98
	>0.9	94.63	68.49	79.47
23 200	>0.5	61.96	95.31	75.10
	>0.6	62.20	95.31	75.27
	>0.7	64.99	95.11	77.22
	>0.8	74.66	94.02	83.23
	>0.9	91.66	92.02	91.84

表选项

从表 3中的结果可以发现很多有趣的现象: 1) 相似度阈值越高，识别性能也越高。2) 随着人名词典规模的扩大，整体人名识别的F₁值也越来越高，例如，当词典包含23 200个词条、相似度阈值>0.9时，F₁值已达到91.84%，识别率非常高。可见，维吾尔族人名词典在人名识别任务中起着十分关键的作用。3) 采用本文提出的基于模糊匹配的维吾尔族人名识别方法，当人名词典规模较小时，也能获得较好的识别效果。例如，当仅采用包含10 000个人名的词典时，本文方法也能得到超过80%的F₁值。
考查相似度阈值的设置可以发现，随着阈值越来越大，人名识别的正确率逐步提高，但召回率逐步降低。总体上，对比不同词典规模和阈值对应的F₁值，本文方法即使在词典规模非常小时，例如只包含1 000个人名，其识别率也还比较高。
本文通过多次实验测试发现, 在构造非人名词典(已有1 062词条) 时，应将具有一些特殊性的非人名词典补充单词尽量地录入进去。因为对这些单词而言，本文的相似度和最小编辑距离的方法不是很敏感，会在一定程度上导致识别精确率的降低。一些非人名词典补充单词实例如表 4所示。
表 4 非人名词典补充单词实例

补充单词	参考人名单词

表选项

4.2 基于音字转换的汉族人名识别本实验所用的实验材料主要是从人民网和天山网上抓取的包含人名的550个维吾尔语句子。其中总共有汉族人名712个；没有汉族人名的句子45个；只有1个汉族人名的句子390个；至少有2个汉族人名的句子115个。此外，姓氏词典包含216个姓氏。采用与维吾尔族人名识别相同的评价方法。实验测试结果为P=95.92%、R=95.79%、F₁=95.86%。实验结果表明，本文基于汉语拼音转换的汉族人名识别方法的效果较好，能够正确识别维吾尔语文本中的绝大多数汉族人名。
通过错误分析发现，识别错误的原因主要有以下几种：1) 由于不同人有不同的书写习惯，在所有测试句子中，有22个汉族人名的书写格式有误。2) 汉族人名姓氏词典中一些词条与句子中的有些单词之间发生冲突。例如，句子中一般单词“pAn teHnika”(科技) 中“pAn”与姓氏词典中的“pAn”(潘) 相同，因此系统错误地认为该单词是人名；句子中常见词“su”(水) 与姓氏词典中的“su”完全相同，系统按照规则错误地将该单词及其后面的单词组成一个人名。在后续的工作中，本文将重点解决这些问题。
4.3 基于模糊匹配与音字转换的维吾尔语人名识别为了验证基于模糊匹配与音字转换的维吾尔语人名识别方法联合使用的效果，本文对同一个维吾尔语文本(既包含维吾尔族人名，又同时包含汉族人名) 进行测试。首先，本文重新收集了实验测试材料。该材料由500个句子组成，其中400句从本实验室使用的3 000句语料中随机抽取获得，另外100条新句子从网上抓取。其中总共包含225个汉族人名和338个维吾尔族人名。然后，采用基于模糊匹配与音字转换的维吾尔语人名识别方法进行汉族人名与维吾尔族人名的识别测试。
本文首先进行汉族人名的识别，然后再进行维吾尔族人名的识别。之所以首先对汉族人名进行识别测试，是因为在汉族人名的识别过程中文本结构及内容无需任何移动(比如不需要将每个单词切分为字母序列)。汉族人名的测试结果为P=94.49%、R=99.11%、F₁=96.74%。此实验结果再次表明基于音字转换的汉族人名识别方法的有效性。
接下来，采用基于模糊匹配的方法对此文本进行维吾尔族人名识别测试。与单独维吾尔族人名识别测试相比，本次实验的不同之处在于先将已经识别出来的汉族人名和非人名单词在对维吾尔族人名识别前一起过滤掉。这样可以减少要匹配单词的数量，避免汉族人名信息对维吾尔族人名识别的影响。此实验中，最小编辑距离的阈值范围不变。对维吾尔族人名整体识别的联合实验测试结果如表 5所示，其结果与单独进行维吾尔族人名识别结果相比，略有提升。
表 5 维吾尔族人名整体识别联合实验测试结果

词典词条	相似度阈值	P/%	R/%	F₁/%
2 000	>0.6	54.45	83.42	65.89
	>0.7	60.23	79.79	68.65
	>0.8	75.05	64.42	69.33
	>0.9	92.20	55.09	68.97
5 000	>0.6	47.83	93.44	63.27
	>0.7	53.93	91.19	67.78
	>0.8	71.49	83.59	77.07
	>0.9	91.09	72.37	80.65
10 000	>0.6	42.09	96.89	58.68
	>0.7	46.68	95.85	62.78
	>0.8	60.92	91.02	72.99
	>0.9	83.61	79.27	81.38
23 200	>0.6	37.14	98.29	53.91
	>0.7	39.48	97.18	56.15
	>0.8	51.54	96.48	67.19
	>0.9	76.87	95.95	85.36

表选项

从表 5中的结果可以看出，当本文对同一个文本进行维吾尔族人名识别和汉族人名识别联合测试时，本文方法仍能获得相当好的识别结果，并且F₁值达到85.36%。这说明本文方法不仅在维吾尔语人名的整体识别过程中能够发挥优势，且具有鲁棒性。
5 结语本文针对维吾尔族人名的识别，提出了基于字母的模糊匹配方法。该方法融合了规则与传统人名词典匹配方法，不完全依赖于语料库的规模，也不需要过多的人工整理工作，更不需要有大量的标注语料；针对汉族人名识别，本文利用汉语拼音到拉丁化维吾尔文的音字转换的特点，提出基于拼音匹配的识别方法。该方法明显地提高维吾尔文本中汉族人名识别的正确率(由原来的91.66%提高到95.92%) 和召回率(由原来的92.02%提高到95.79%)。另外，本文同时进行了两种方法的联合测试，实验结果显示，本文提出的方法不仅有效，而且比较鲁棒。
目前，此研究虽然得到较好的识别效果，但是与维吾尔语词形态与构词方法相关的一系列具体问题还有待解决，例如词的单数和复数形式、词缀、词尾、构词模式等。如果能有效地把这些语法知识融入此方法，相信会得到更佳的识别效果。

参考文献

[1]	Journal of Central South University(Science and Technology), 41(2):649-654.-->陈钰枫, 宗成庆, 苏克毅. 汉英双语命名实体识别与对齐的交互式方法[J]. 计算机学报, 2011, 34(9): 1688–1696.CHEN Yufeng, ZONG Chengqing, SU Keh-Yih. Joint Chinese-English name entity recognition and alignment[J]. Chinese Journal of Computers, 2011, 34(9): 1688–1696. DOI:10.3724/SP.J.1016.2011.01688(in Chinese)
[2]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Elsebai A, Meziane F, Belkredim F Z. A rule based persons names Arabic extraction system[J]. Communications of the IBIMA, 2009, 11: 53–60.
[3]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Aboaoga M, Aziz M J A. Arabic person names recognition by using a rule based approach[J]. Journal of Computer Science, 2013, 9(7): 922–927. DOI:10.3844/jcssp.2013.922.927
[4]	Journal of Central South University(Science and Technology), 41(2):649-654.-->姜伟. 基于规则的中文人名识别与抽取关键技术研究[J]. 科技创新导报, 2012, 28: 65–66.JIANG Wei. Research on key technology of Chinese name recognition and extraction based on rules[J]. Science and Technology Innovation Herald, 2012, 28: 65–66. (in Chinese)
[5]	Journal of Central South University(Science and Technology), 41(2):649-654.-->宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2013.ZONG Chengqing. Statistical Natural Language Processing[M]. Beijing: Tsinghua University Press, 2013. (in Chinese)
[6]	Journal of Central South University(Science and Technology), 41(2):649-654.-->俞鸿魁, 张华平, 刘群, 等. 基于层叠隐马尔可夫模型的中文命名实体识别[J]. 通信学报, 2006, 27(2): 87–94.YU Hongkui, ZHANG Huaping, LIU Qun, et al. Chinese named entity identification using cascaded hidden Markov model[J]. Journal on Communications, 2006, 27(2): 87–94. (in Chinese)
[7]	Journal of Central South University(Science and Technology), 41(2):649-654.-->钱晶, 张玥杰, 张涛. 基于最大熵的汉语人名地名识别方法研究[J]. 小型微型计算机系统, 2006, 27(9): 1761–1766.QIAN Jing, ZHANG Yuejie, ZHANG Tao. Research on Chinese person name and location name recognition based on maximum entropy model[J]. Journal of Chinese Mini-Micro Computer Systems, 2006, 27(9): 1761–1766. (in Chinese)
[8]	Journal of Central South University(Science and Technology), 41(2):649-654.-->赵伟, 李丹. SVM与错误驱动学习相结合的中文人名识别[J]. 长春工业大学学报:自然科学版, 2009, 30(4): 396–400.ZHAO Wei, LI Dan. Chinese name identification based on both support vector machine and error-driven learning[J]. Journal of Changchun University of Technology:Natural Science Edition, 2009, 30(4): 396–400. (in Chinese)
[9]	Journal of Central South University(Science and Technology), 41(2):649-654.-->唐钊. 条件随机场模型在中文人名识别中的研究与实现[J]. 现代计算机, 2012(21): 3–7.TANG Zhao. Research and implementation of conditional random field model in Chinese personal name recognition[J]. Modern Computer, 2012(21): 3–7. (in Chinese)
[10]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Muhtar Arkin, Rahim Mahmut, Askar Hamdulla. Person name recognition for Uyghur using conditional random fields[J]. International Journal of Computer Science Issues, 2013, 10(2): 130–136.
[11]	Journal of Central South University(Science and Technology), 41(2):649-654.-->LI Lishuang, HUANG Degen, LI Dan. Recognizing Chinese person names based on hybrid models[J]. International Journal of Advanced Intelligence, 2011, 3(2): 219–228.
[12]	Journal of Central South University(Science and Technology), 41(2):649-654.-->潘正高. 基于规则和统计相结合的中文命名实体识别研究[J]. 情报科学, 2012, 30(5): 708–714.PAN Zhenggao. Research on the recognition of Chinese named entity based on rules and statistics[J]. Information Science, 2012, 30(5): 708–714. (in Chinese)
[13]	Journal of Central South University(Science and Technology), 41(2):649-654.-->和雪娟, 陈玉华, 高丽金, 等. 基于统计和规则混合策略的中国人名识别研究[J]. 云南民族大学学报:自然科学版, 2009, 18(1): 70–74.HE Xuejuan, CHEN Yuhua, GAO Lijin, et al. On the identifying system for Chinese names based on a combination of statistic analysis and rules[J]. Journal of Yunnan Nationalities University:Natural Sciences Edition, 2009, 18(1): 70–74. (in Chinese)
[14]	Journal of Central South University(Science and Technology), 41(2):649-654.-->闫萍. 基于规则和概率统计相结合的中文命名实体识别研究[J]. 计算机与数字工程, 2011, 39(9): 88–92.YAN Ping. Research on the identification for Chinese named entity based on combination of rules and statistic analysis[J]. Computer and Digital Engineering, 2011, 39(9): 88–92. (in Chinese)
[15]	Journal of Central South University(Science and Technology), 41(2):649-654.-->窦嵘, 加羊吉, 黄伟. 统计与规则相结合的藏文人名自动识别研究[J]. 长春工业大学学报:自然科学版, 2010, 11(2): 113–115.DOU Rong, JIA Yangji, HUANG Wei. Automatic recognition of Tibetan name with the combination of statistics and regular[J]. Journal of Changchun University of Technology:Natural Science Edition, 2010, 11(2): 113–115. (in Chinese)
[16]	Journal of Central South University(Science and Technology), 41(2):649-654.-->李佳正, 刘凯, 麦热哈巴·艾力, 等. 维吾尔语中汉族人名的识别及翻译[J]. 中文信息学报, 2011, 25(4): 82–87.LI Jiazheng, LIU Kai, Mairehaba Aili, et al. Recognition and translation for Chinese names in Uyghur language[J]. Journal of Chinese Information Processing, 2011, 25(4): 82–87. (in Chinese)
[17]	Journal of Central South University(Science and Technology), 41(2):649-654.-->新疆维吾尔自治区民族语言文字工作委员会. 现代维吾尔文学语言正字词典[M]. 乌鲁木齐: 新疆人民出版社, 2009.Xinjiang Uyghur Autonomous Region Ethnic Language Work Committee. Modern Uyghur Literary Language Orthography Dictionary[M]. Urumqi: Xinjiang People's Publishing House, 2009. (in Chinese)
[18]	Journal of Central South University(Science and Technology), 41(2):649-654.-->Gulila Altenbek. Rule-based person name recognition for Xinjiang minority languages[J]. Journal of Chinese Language and Computing, 2005, 15(4): 219–226.
[19]	Journal of Central South University(Science and Technology), 41(2):649-654.-->冯鲸华, 古丽拉·阿东别克, 吴守用, 等. 基于位置概率模型的哈萨克语人名识别[J]. 计算机应用与软件, 2010, 27(12): 21–24.FENG Jinghua, Gulila Altenbek, WU Shouyong, et al. Kazakh personal name recognition based on position probability model[J]. Computer Applications and Software, 2010, 27(12): 21–24. (in Chinese)
[20]	Journal of Central South University(Science and Technology), 41(2):649-654.-->艾斯卡尔·肉孜, 宗成庆, 姑丽加玛丽·麦麦提艾力, 等. 基于条件随机场的维吾尔人名识别方法[J]. 清华大学学报:自然科学版, 2013, 53(6): 873–877.Askar Rozi, ZONG Chengqing, Guljamal Mamateli, et al. Approach to recognition Uyghur names based on conditional random fields[J]. Journal of Tsinghua University:Science and Technology, 2013, 53(6): 873–877. (in Chinese)
[21]	Journal of Central South University(Science and Technology), 41(2):649-654.-->秦佳, 杨建峰, 薛彬, 等. 基于向量相似度匹配准则的图像配准与拼接[J]. 微电子学与计算机, 2013, 30(6): 22–25.QIN Jia, YANG Jianfeng, XUE Bin, et al. Image registration and mosaic based on vector similarity matching principle[J]. Micro-Electronics & Computer, 2013, 30(6): 22–25. (in Chinese)
[22]	Journal of Central South University(Science and Technology), 41(2):649-654.-->赵亚慧. 基于编辑距离的中文机构名简称检索方法研究[J]. 内蒙古科技与经济, 2010(7): 69–70.ZHAO Yahui. Research on Chinese institutions name retrieval method based on edit distance[J]. Inner Mongolia Science Technology & Economy, 2010(7): 69–70. (in Chinese)
[23]	Journal of Central South University(Science and Technology), 41(2):649-654.-->包西林, 郭辰, 吴敏, 等. 自动拼写校对的算法设计与系统实现[J]. 科技和产业, 2013, 13(2): 144–148.BAO Xilin, GUO Chen, WU Min, et al. The design and system implementation of automated spelling check algorithm[J]. Science Technology and Industry, 2013, 13(2): 144–148. (in Chinese)