

1. 新疆大学 软件学院, 乌鲁木齐 830046;
2. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046
收稿日期: 2016-06-22
基金项目: 国家“青年****”项目;国家自然科学基金项目(61163033,61065005);教育部新世纪优秀人才支持计划资助项目(NCET-10-0969);新疆维吾尔自治区高新技术发展研究计划项目(201312103)
作者简介: 阿不都萨拉木·达吾提(1972-), 男, 讲师
通信作者: 艾斯卡尔·艾木都拉, 教授, E-mail:askar@xju.edu.cn
摘要:该文在类别区分词特征选择方法的基础上,针对维吾尔文中的生气、高兴、难过、惊讶等句子的情感类别提出了类别区分词与情感词典相结合的方法,进行了句子情感分类研究。结合维吾尔语文本句子中的情感表达特点,利用类别区分词特征选择方法,提取了最有类别区分能力的特征词,并进行了情感分类。通过人工抽取方法收集了维吾尔文句子中能表达情感的关键词,并建立了一个基础情感词典。将该词典与类别区分词结合在一起作为特征,对维吾尔文句子的情感类型有效地进行了分类。实验结果表明类别区分词与情感词典相结合方法的分类效率优于只用类别区分词特征选择方法。
关键词: 类别区分词 情感词典 句子情感 情感分类 维吾尔语
Emotion recognition from Uyghur sentences based on combinations of class discrimination words and a sentiment dictionary
Abdusalam Dawut1, Hussein Yusuf2, Askar Hamdulla2


1.School of Software, Xinjiang University, Urumqi 830046, China;
2.School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China
Abstract:This paper presents a recognition method for Uyghur sentence sentiments, such as anger, happiness, sadness and wonder based on combining class-discrimination words (CDW) and a sentiment dictionary. The sentiment expression characteristics in the Uyghur sentence text are identified from features extracted using a CDW feature selection method for the emotion recognition. A set of emotional words is collected manually and put into a sentiment dictionary which is combined with the CDW feature words for the emotion recognition. Tests show that the combined method is more effective than only the CDW feature based method.
Key words: class discrimination wordsentiment dictionarysentence sentimentemotion recognitionUyghur
随着自然语言处理技术的不断进步,隶属文本内容理解的情感文本倾向性分析成为了研究热点[1]。虽然针对汉语、英语等大语种文本的情感分类技术已相当成熟,相关共享资源也已非常丰富[2-11],但是维吾尔文文本中的情感分类技术研究起步较晚,相关共享资源也在建设中。文[12-14]通过建立较小规模的情感词典,针对维吾尔文文本中常见的几种情感初步尝试了基于情感词典的文本情感倾向性分析。文[15-17]利用区分性关键词语特征选择方法,首先抽取最有类别区分能力的情感词,然后以这些类别区分性词语作为情感特征来训练类别区分朴素Bayes (naive Bayes,NB) 模型。通过类别区分词特征选择方法所提取的特征项[16]虽然具有很强的类别区分能力,但是该方法本身存在一个小缺点,即类别区分性要求越高时所筛选的类别区分词数量越少。为此,本文以手工建立的情感词典作为特征,填补了类别区分性特征词在数量上的不足,以提高分类效率。
1 维吾尔语文本句子中的情感分类1.1 情感类别本文重点考虑了生气、高兴、难过和惊讶等4类常见情感,隶属这4类情感的典型文本例句如表 1所示。
表 1 维吾尔文文本情感例句
类型 | 典型例句 |
生气 | ![]() (真可惜,对你的付出都没了) |
高兴 | ![]() (这婚礼仪式比我想象的还好,谢谢你) |
难过 | ![]() (这些日子谁都不会关心我) |
惊讶 | ![]() (哦,你的意见还不少哪) |
表选项
本文将维吾尔文文本句子中的情感分类流程分为维吾尔文的预处理、句子情感特征的提取、特征表示及特征向量生成以及利用分类算法进行分类等几个步骤来完成。
1.2 维吾尔文预处理维吾尔文预处理部分包括去除非维吾尔文字符、停用词等。非维吾尔文字符是指与文本信息统计无关的特殊字符,包括单位符号、标点符号、数字、序列号、数学符号、制表符、换行符、拼音和特殊符号等。由于这些字符不包含文本的情感信息,因此在文本预处理阶段应予以删除。
在一般情况下,维吾尔语中的停用词是指在文本中出现频率很高,但表征能力比较弱、对文本情感分类没有太大作用的,或者在各类文档中出现频率都很高的词语集。部分停用词如表 2所示。
表 2 维吾尔语文本预处理中的停用词表
词性 | 停用词 |
助词 | ![]() (不是,既是,似乎,走,做,不,……) |
连词 | ![]() (所以,因为,和,或者,与,又,……) |
副词 | ![]() (以前,刚才,勉强,趋,快,……) |
量词 | ![]() (根,次,公斤,位,条,……) |
代词 | ![]() (你,我,我们,他们,他,把他,……) |
数词 | ![]() (千,五十,第一,三,……) |
叹词 | ![]() (啪嚓,闪,哧啦,……) |
表选项
1.3 特征提取在特征提取方面,本文提取类似于文[18]中的“类别区分词”特征。类别区分词已经在通用文档分类任务中进行过研究,并被证明优于其他特征提取方法所选取的特征词[19]。其选取方法如下:
首先,定义t1(t1表示文本样本) 的类之间概率分布为
$\begin{array}{*{20}{c}}{{\rm{Distribute}}\left( {{t_1}} \right) = \left( {p\left( {{C_1}|{t_1}} \right)} \right.,}\\{\left. {p\left( {{C_2}|{t_1}} \right), \cdots ,p\left( {{C_n}|{t_1}} \right)} \right).}\end{array}$ | (1) |
$\begin{array}{*{20}{c}}{p\left( {{t_1}} \right) = \sum\limits_{i = 1}^m {p\left( {{C_i}} \right)p\left( {{t_1}|{C_i}} \right)} ,}\\{p\left( {{t_1}|{C_i}} \right) = \frac{{1 + \sum\limits_{k = 1}^{{d_i}} {{\rm{tf}}\left( {{t_1}} \right)} }}{{\left| V \right| + \sum\limits_{j = 1}^{\left| V \right|} {\sum\limits_{k = 1}^{{d_i}} {{\rm{tf}}\left( {{t_{jk}}} \right)} } }}.}\end{array}$ | (2) |
其次,定义类别区分词挑选标准为
${\rm{CDW}}\left( {{t_1}} \right) = {\rm{Ma}}{{\rm{x}}_1} - {\rm{Ma}}{{\rm{x}}_2}.$ | (3) |
最后,设置一个阈值T,T为0到1之间的数,选择CDW (t1)>T的那些词作为类别区分词。
1.4 特征表示及分类器选择本文分别使用类别区分词和类别区分词与情感词典相结合作为特征。本文以特征词的词频(term frequency, TF) 值作为其权值。词频是比较简单的特征权重表示方法,适用于朴素Bayes分类器。将选择出的特征输入至分类器中。在分类实验中,本文选择非常成熟的朴素Bayes分类器。
2 实验与分析2.1 实验数据目前,由于国内外还没有通用的维吾尔语情感本文语料库,因此本文首先建立了包含不同情感的情感文本语料库,其中包括了425句生气类文本、254句高兴类文本、204句难过类文本、216句惊讶类文本。另外,采用人工抽取的方法本文还收集了规模较小的维吾尔语情感词词典,其中有生气类97个词条、高兴类104个词条、难过类112个词条、惊讶类92个词条。
从整体语料的分布情况来看,各类本文所包含的句子个数存在严重不平衡的现象。因此,本文准备了两个数据集:采用随机欠采样技术构建了一个平衡数据集A,其中包括了生气类、高兴类、难过类和惊讶类文本各204句;由所有文本句子组成非平衡数据集B,其中包括各类的所有句子。
2.2 实验设置本文的实验系统框架如图 1所示。本实验采用NB模型作为分类器。在实验过程中,分别以类别区分词、类别区分词与情感词典相结合作为特征,并使用它们的词频值作为文本向量里面的特征值。具体实验时,本文采用开源软件OpenPR (http://www.openpr.org.cn/) 进行模型训练和测试。分类算法的所有参数都设置为默认值。
![]() |
图 1 维吾尔文句子情感分类的系统结构图 |
图选项 |
2.3 评价指标一般地,在平衡数据的分类中,除了精确率(P)、召回率(R)、F1值外,通常使用准确率(A) 作为分类效果的衡量标准;而在对不平衡数据进行分类时,由于分类结果很容易偏向多类,使用准确率作为分类效果的衡量标准对于少类变得非常不公平。因此,一般使用几何平均数(G-mean) 作为衡量分类效果的标准[20]。几何平均数的计算方法公式为
${\rm{G - mean = }}\sqrt[i]{{{T_R}\left( 1 \right) \cdot {T_R}\left( 2 \right) \cdot \cdots \cdot {T_R}\left( i \right)}}.$ | (4) |
2.4 实验结果及分析2.4.1 平衡数据集A的情感分类结果从表 3所示的实验结果可以看出,只使用类别区分词方法可以使分类准确率达到74.51%,这说明类别区分词是非常重要的特征,单独使用即可达到较高的分类准确率。进一步将类别区分词和情感词典相结合并去重后作为特征,可使分类准确率达到78.67%,与只使用类别区分词方法相比,实验结果提高了4.16%。这说明本文人工收集的情感词典能有效地弥补类别区分词特征的不足。
表 3 平衡数据集的情感分类结果
情感 类别 | 类别区分词 | 类别区分词与情感词典相结合 | |||||
P/% | R/% | F1/% | P/% | R/% | F1/% | ||
生气类 | 69.75 | 75.50 | 72.36 | 70.50 | 84.00 | 76.56 | |
高兴类 | 73.00 | 92.00 | 81.36 | 84.75 | 92.50 | 88.35 | |
难过类 | 81.25 | 63.50 | 71.13 | 81.75 | 69.00 | 74.59 | |
惊讶类 | 75.50 | 65.00 | 69.63 | 77.75 | 67.50 | 72.18 | |
平均 | 74.88 | 74.00 | 73.62 | 78.69 | 78.25 | 77.92 | |
准确率/% | 74.51 | 78.67 |
表选项
2.4.2 非平衡数据集B的情感分类结果从表 4所示的实验结果可以看出,类别区分词与情感词典相结合的方法在非平衡数据的分类中优势明显。与只使用类别区分词方法相比,类别区分词与情感词典相结合方法的分类效果更好,G-mean可达到79.59%,比只使用类别区分词方法增加9.27%,G-mean增幅高于平衡数据集A的G-mean增幅。
表 4 非平衡数据集的情感分类结果
情感类别 | 类别区分词 | 类别区分词与情感词典相结合 | |||||
P/% | R/% | F1/% | P/% | R/% | F1/% | ||
生气类 | 59.50 | 71.00 | 64.72 | 72.75 | 87.50 | 78.66 | |
高兴类 | 75.25 | 84.50 | 79.49 | 86.50 | 91.00 | 88.61 | |
难过类 | 76.25 | 65.75 | 70.36 | 84.25 | 69.50 | 75.95 | |
惊讶类 | 76.00 | 62.00 | 68.19 | 77.50 | 72.50 | 74.68 | |
平均 | 71.75 | 70.81 | 70.69 | 80.25 | 80.13 | 79.48 | |
G-mean/% | 70.32 | 79.59 |
表选项
从表 3和4可以看出, 生气类和高兴类的召回率要明显高于另外两类。通过对原始语料的观察不难发现,这两类句子在语料中有较多的类别区分词。
3 结语本文在抽取类别区分特征词的基础上,通过使用具有一定规模的情感词典,在维吾尔文文本句子情感分类中取得了良好的分类效果,验证了在句子的情感分类过程中类别区分词与情感词典相结合的方法在非平衡数据的分类中优势尤为突出。
然而,维吾尔文句子中还有一些情感表达能力比较强而且具有类别区分能力的特殊短语(例如“


参考文献
[1] | Journal of Central South University(Science and Technology), 41(2):649-654.-->宗成庆. 统计自然语言处理[M]. 北京: 清华大学出版社, 2013.ZONG Chengqing. Statistical Natural Language Processing[M]. Beijing: Tsinghua University Press, 2013. (in Chinese) |
[2] | Journal of Central South University(Science and Technology), 41(2):649-654.-->代大明, 王中卿, 李寿山, 等. 基于情绪词的非监督中文情感分类方法研究[J]. 中文信息学报, 2012, 26(4): 103–108.DAI Daming, WANG Zhongqing, LI Shoushan, et al. Unsupervised Chinese sentiment classification with emotion words[J]. Journal of Chinese Information Processing, 2012, 26(4): 103–108. (in Chinese) |
[3] | Journal of Central South University(Science and Technology), 41(2):649-654.-->赵志伟.中文文本倾向性分析研究[D].合肥:安徽大学, 2012. ZHAO Zhiwei. Chinese Text Orientation Analysis[D]. Hefei:Anhui University, 2012. |
[4] | Journal of Central South University(Science and Technology), 41(2):649-654.--> Yang T-H, Hsieh C-T, Soo V-W. Towards text-based emotion detection[C]//International Conference on Information Management and Engineering. Kuala Lumpur, Malaysia, 2009. |
[5] | Journal of Central South University(Science and Technology), 41(2):649-654.-->李寿山.情感文本分类方法研究[D].北京:中国科学院自动化研究所, 2008. LI Shoushan. Research on Sentiment Classification Method[D]. Beijing:Institute of Automation, Chinese Academy of Sciences, 2008. |
[6] | Journal of Central South University(Science and Technology), 41(2):649-654.-->秀段婷, 何婷婷, 宋乐.基于PMI-IR算法的Blog情感分类研究[C]//第5届全国青年计算语言学研讨会论文集.武汉:华中师范大学, 2010. XIU Duanting, HE Tingting, SONG Le. Blog sentiment classification based on PMI-IR algorithm[C]//5th National Conference on Computational Linguistics for Young Fellows. Wuhan:Huazhong Normal University China, 2010. |
[7] | Journal of Central South University(Science and Technology), 41(2):649-654.-->杨鼎, 阳爱民. 一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 计算机应用研究, 2010, 27(10): 3737–3743.YANG Ding, YANG Aimin. Classification approach of Chinese texts sentiment based on semantic lexicon and naive Bayesian[J]. Application Research of Computers, 2010, 27(10): 3737–3743. (in Chinese) |
[8] | Journal of Central South University(Science and Technology), 41(2):649-654.-->张靖, 金浩. 汉语词语情感倾向自动判断研究[J]. 计算机工程, 2010, 36(23): 194–196.ZHANG Jing, JIN Hao. Study on Chinese word sentiment polarity automatic estimation[J]. Computer Engineering, 2010, 36(23): 194–196. (in Chinese) |
[9] | Journal of Central South University(Science and Technology), 41(2):649-654.-->潘文彬.基于情感词词典的中文句子情感倾向性分析[D].北京:北京邮电大学, 2011. FAN Wenbin. Sentiment Orientation Analysis of Chinese Sentences Based on Sentiment Word Dictionary[D]. Beijing:Beijing University of Posts and Telecommunications, 2011. https://site.douban.com/146782/widget/notes/15462869/note/355625387/ |
[10] | Journal of Central South University(Science and Technology), 41(2):649-654.-->王素格, 杨安娜, 李德玉. 基于汉语情感词表的句子情感倾向分类研究[J]. 计算机工程与应用, 2009, 45(24): 153–155.WANG Suge, YANG Anna, LI Deyu. Research on sentence sentiment classification based on Chinese sentiment word table[J]. Computer Engineering and Applications, 2009, 45(24): 153–155. (in Chinese) |
[11] | Journal of Central South University(Science and Technology), 41(2):649-654.-->夏睿.基于语言知识和集成学习的情感文本分类方法研究[D].北京:中国科学院自动化研究所, 2011. XIA Rui. Emotional Text Categorization Based on Language Knowledge and Integrated Learning[D]. Beijing:Institute of Automation, Chinese Academy of Sciences, 2011. |
[12] | Journal of Central South University(Science and Technology), 41(2):649-654.-->黄俊, 田生伟, 禹龙, 等. 基于维吾尔语情感词的句子情感分析[J]. 计算机工程, 2012, 38(9): 183–185.HUANG Jun, TIAN Shengwei, YU Long, et al. Sentence sentiment analysis based on Uyghur sentiment word[J]. Computer Engineering, 2012, 38(9): 183–185. (in Chinese) |
[13] | Journal of Central South University(Science and Technology), 41(2):649-654.-->于斯音·于苏普, 艾斯卡尔·艾木都拉. 基于情感词典的维吾尔语文本句子情感分类[J]. 电脑知识与技术, 2014(10): 2371–2374.Hussein Yusuf, Askar Hamdulla. Sentiment database based sentiment classification from Uyghur text[J]. Computer Knowledge and Technology, 2014(10): 2371–2374. (in Chinese) |
[14] | Journal of Central South University(Science and Technology), 41(2):649-654.-->冯冠军, 禹龙, 田生伟. 基于CRFs自动构建维吾尔语情感词语料库[J]. 现代图书情报技术, 2011(3): 17–21.FENG Guanjun, YU Long, TIAN Shengwei. Auto construction of Uyghur emotional words corpus based on CRFs[J]. New Technology of Library and Information Service, 2011(3): 17–21. (in Chinese) |
[15] | Journal of Central South University(Science and Technology), 41(2):649-654.-->热依莱木·帕尔哈提, 孟祥涛, 艾斯卡尔·艾木都拉. 基于区分性关键词模型的维吾尔文本情感分类[J]. 计算机工程, 2014, 40(10): 132–136.Rayila Parhat, MENG Xiangtao, Askar Hamdulla. Discriminative keyword model based sentiment classification from Uyghur text[J]. Computer Engineering, 2014, 40(10): 132–136. (in Chinese) |
[16] | Journal of Central South University(Science and Technology), 41(2):649-654.-->周奇年, 张振浩, 徐登彩. 用于中文文本分类的基于类别区分词的特征选择方法[J]. 计算机应用与软件, 2013, 30(3): 193–195.ZHOU Qinian, ZHANG Zhenhao, XU Dengcai. Feature selection method for Chinese text categorization based on class discriminating words[J]. Computer Applications and Software, 2013, 30(3): 193–195. (in Chinese) |
[17] | Journal of Central South University(Science and Technology), 41(2):649-654.-->祖丽湖玛尔·马木提江.维吾尔语区分性关键词提取应用软件开发及其性能分析[D].乌鲁木齐:新疆大学, 2013. Zulhumar Mamutjan. Uyghur Discriminative Keyword Extraction Software Development[D]. Urumqi:Xinjiang University, 2013. |
[18] | Journal of Central South University(Science and Technology), 41(2):649-654.-->周茜, 赵明生, 扈旻. 中文文本分类中的特征选择研究[J]. 中文信息学报, 2004, 18(3): 17–23.ZHOU Qian, ZHAO Mingsheng, HU Min. Study on feature selection in Chinese text categorization[J]. Journal of Chinese Information Processing, 2004, 18(3): 17–23. (in Chinese) |
[19] | Journal of Central South University(Science and Technology), 41(2):649-654.-->张玉芳, 王勇, 刘明, 等. 新的文本分类特征选择方法研究[J]. 计算机工程与应用, 2013, 49(5): 132–135.ZHANG Yufang, WANG Yong, LIU Ming, et al. New feature selection approach for text categorization[J]. Computer Engineering and Applications, 2013, 49(5): 132–135. (in Chinese) |
[20] | Journal of Central South University(Science and Technology), 41(2):649-654.-->王志昊, 王中卿, 李寿山, 等. 不平衡情感分类中的特征选择方法研究[J]. 中文信息学报, 2013, 27(4): 113–118.WANG Zhihao, WANG Zhongqing, LI Shoushan, et al. Feature selection for imbalanced sentiment classification[J]. Journal of Chinese Information Processing, 2013, 27(4): 113–118. (in Chinese) |