删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

THUYG-20:免费的维吾尔语语音数据库

本站小编 Free考研考试/2020-04-15

<script type="text/x-mathjax-config">MathJax.Hub.Config({tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]}});</script> <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML"></script>艾斯卡尔·肉孜 1 , 殷实 1 , 张之勇 1 , 王东 1 , 艾斯卡尔·艾木都拉 2 , 郑方 1
1. 清华大学 计算机科学与技术系, 清华信息科学技术国家实验室, 信息技术研究院, 北京 100084;
2. 新疆大学 信息科学与工程学院, 乌鲁木齐 830046

收稿日期: 2016-06-24
基金项目: 国家自然科学基金项目(61271389,61371136);国家“九七三”重点基础研究发展计划(2013CB329302)
作者简介: 艾斯卡尔·肉孜(1978-), 男, 博士研究生
通信作者: 郑方, 教授, E-mail:fzheng@tsinghua.edu.cn

摘要:语音数据资源是语音识别研究的基础。当前国内只有为数不多的开放的语音数据库供研究者免费使用,特别是在维吾尔语等少数民族语音识别方面,数据资源更为贫乏。该文发布一个完全免费的维吾尔语连续语音数据库,该数据库包括约20 h的训练数据和1 h的测试数据,同时介绍了构建维吾尔语语音识别系统所需要的音素集、词表、文本数据等相关资源,以及用于构建基线系统的脚本。给出了该基线系统在纯净测试数据和噪声测试数据上的识别性能。该数据库为维吾尔语语音识别研究提供了可以借鉴的标准数据库。
关键词: 语音识别 维吾尔语 语料库 深度神经网络(DNN)
THUYG-20: A free Uyghur speech database
Aisikaer Rouzi1, YIN Shi1, ZHANG Zhiyong1, WANG Dong1, Askar Hamdulla2, ZHENG Fang1
1.Research Institute of Information Technology, Tsinghua National Laboratory for Information Science and Technology, Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China;
2.School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China


Abstract:Speech data plays a fundamental role in research on speech recognition. However, there are few open speech databases available for researchers in China, especially for minor languages such as Uyghur. This paper develops a Uyghur continuous speech database which is totally open and free. The database consists of 20 h of training speech and 1 h of test speech, as well as all the resources needed to construct a full Uyghur speech recognition system, including a phone set, lexicon, and text data. A recipe used to construct the baseline system is also described with results for two test sets involving clean speech and noisy speech. This paper provides a standard database for Uyghur speech recognition.
Key words: speech recognitionUyghur languagecorpusdeep neural network (DNN)
语音数据库是进行语音识别研究的基础。国际上比较著名的几个数据库,例如RM (https://catalog.ldc.upenn.edu/LDC96S39)、Aurora (http://aurora.hsnr.de/)、TIMIT (https://catalog.ldc.upenn.edu/LDC93S1)、WSJ (https://catalog.ldc.upenn.edu/LDC2000T43)、Switch Board (https://catalog.ldc.upenn.edu/LDC97S62) 等,使得研究者可以在同一标准下比较自己的语音识别方法,因而大大推动了语音识别技术的发展。然而,这些数据库都需要付费才能使用,限制了初****对语音识别领域的涉足。这一状况目前已有所改变,2015年出现了如LibriSpeech等可以免费使用的数据库资源(http://www.openslr.org/12)。
相对而言,国内的语音数据库标准化工作十分薄弱。到目前为止,国内只有为数不多的几个用于语音识别研究的数据库为研究者公认,如汉语863数据库。少数民族语言的语音数据库建设还处于空白阶段,仅有的几个数据资源由研究者独立录制,规模小,缺乏统一标准,普及面窄。特别是,这些有限的数据资源共享性差,免费数据资源几乎没有。这一现状制约了语音识别研究的发展。
本文发布一个约20 h的维吾尔语语音数据库(THUYG-20),供研究者免费使用。本文提供了用于构建完整语音识别系统的所有资源、代码、流程,提供完整的训练和测试标准,提供基线系统的识别结果,提供可重现的自动脚本。本文作者期望通过这一数据库和基线系统的发布,可以吸引更多对语音识别研究感兴趣的****,促进维吾尔语语音识别技术的发展。
1 维吾尔语语音数据库研究现状维吾尔语语音识别研究已经取得了一系列研究成果[1-6]。在研究过程中,****们大多录制自己的数据库并在此基础上发表研究成果。
文[1]所使用的数据库由171个发音人组成,其中男性85人,女性86人,发音文本从前后30天的《新疆日报》维文版中选择1 200个句子。文[2]的数据库包括男女发音人各10人,1 200句用于训练,30句用于测试。文[3]用男女各4个人的语音数据进行训练,其余2人的数据用于测试。文[7-8]的数据库由音节、词语、语句、数字和常用符号等5个数据库组成。文[4, 8-10]采用356人(189女,167男)128 h的维吾尔语朗读式语音数据,选择男女各5个人的1 018个语句(约2 h) 用于测试。文[5, 11-13]的数据库包括男女各32人的数据,每个发音人朗读100个随机选择的句子,其中54人的数据用于训练,其余的数据用于测试。文[14-15]的语料库为维吾尔语口语语料,包含词条分别为21 196和35 056条。文[6]的语料库由1.2万句约9.6 h的语料组成。文[16-20]的训练集包含353个发音人的150 h数据,测试集包含23个人的1 248条语音数据。文[21]中的训练集约为15 h数据,测试集约为0.5 h数据。文[22]的训练集由1 052个人的470 h数据组成,测试集由11个人的2 186条语句(约2 h) 组成。文[23]中的数据库包含94个发音人,每个人参加30 min左右的电话聊天。
可见,已有的维吾尔语研究确实积累了相当规模的语音数据。然而,这些数据由各研究机构内部或小范围合作者使用,数据库标准不统一,数据内容不公开,发表的研究结果无法由其他研究者重现,也无法进行横向对比。由于各研究机构的封闭性,****们在进行维吾尔语语音研究时多倾向于自行建立语料库,造成了严重的重复劳动和资源浪费,制约了维吾尔语语音识别技术的发展。因此,建立一个标准的、公开的、免费的、高质量的维吾尔语语音数据库,对推动维吾尔语语音识别及相关研究的发展具有重要意义。
2 THUYG-20:免费的维吾尔语语音数据库本文发布的维吾尔语语音数据库THUYG-20可以在网上免费下载(下载地址:http://data.cslt.org/thuyg20/README.html)。数据库的资源包括:约20 h的语音数据、约12 MB单词的文本数据、包含约4.5万余单词的词表、基于Kaldi的系统构建脚本。
2.1 数据库规模表 1给出THUYG-20数据库中语音数据的统计结果。其中:训练集用于声学模型训练,开发集用来选择模型参数,测试集用来进行性能测试。
表 1 THUYG-20语音语料库参数
语料库说话人年龄句数时长/h
训练集34816318519~287 60020.15
开发集22411311119~284001.08
测试集23131022~281 4682.40


表选项






表 2给出该数据库中文本数据的统计结果,其中训练集用来训练语言模型,测试集用来测试语言模型性能。
表 2 THUYG-20文本语料库参数
语料库句子/106单词/106词素/106音节/106字符/106
训练集1.6211.5821.8831.7478.18
测试集0.011 890.2170.4080.5921.46


表选项






2.2 语音数据来源1) 录音环境为办公室环境,不包括其他说话人声音。
2) 录音设备为IBM-联想台式机,外置麦克风。
3) 录音人为348名高校在校本科生及研究生,均为维吾尔族说话人,来自新疆30多个地州。
4) 录音内容为常规话题,包括小说、报纸和各类书籍。
5) 录音时间为2012年1月-2012年9月。
2.3 数据库用途本数据库可用于维吾尔语语音识别研究、维吾尔语说话人识别研究和维吾尔语语音与语言特性研究。
2.4 语料库数据规格1) 信息文件:文本文件,存放说话人性别、年龄、族别及文化程度。
2) 脚本文件:文本文件,存放说话人发音文本,每句文本包括句子编号、发音文本。
3) 语音文件:语音文件,存放说话人语音,文件名由性别、说话人编号和句子编号组成,如F00108000148表示编号为108的女性说话人,发音文本句子编号为148。
4) 采样格式:16 kHz,16位,单声道,wav格式。
2.5 发布格式网络发布,自由下载,对研究者免费开放。
2.6 测试任务基于表 1中的测试集,本文发布如下两个标准测试任务:
1) TEST-A:测试数据由THUYG-20中的原始测试数据组成,即纯净无噪声数据。
2) TEST-N:测试数据由THUYG-20中的原始测试数据混合一定比例的噪声组成。噪声的来源为DEMAND噪声库(http://parole.loria.fr/DEMAND/) 中包含的3种噪声:白噪声、汽车噪声和咖啡馆噪声。混合后测试数据的信噪比(signal to noise ratio,SNR) 包括从-6 dB到9 dB,共18个测试子任务。
3 基线维吾尔语识别系统构建THUYG-20提供的标准基线系统基于Kaldi开源工具包构建[24]。本文选择深度神经网络(deep neural network, DNN) 作为声学模型,以基于词的三元文法模型(3-gram) 作为语言模型,基于OpenFST (http://www.openfst.org/twiki/bin/view/FST/WebHome) 构建静态解码网络。
3.1 基于DNN的声学模型DNN是具有多隐藏层的神经网络。DNN比传统的Gauss混合模型(Gaussian mixture model, GMM) 具有更强的声学建模能力。DNN与隐Markov模型(hidden Markov Model, HMM) 结合的混合模型方法已经成为语音识别领域的主流框架。
图 1为THUYG-20基线系统所采用的DNN-HMM模型框架。其中,DNN模型的输入为基于Mel滤波器组的Filter-bank (Fbank) 特征,其中每帧语音长度为25 ms,帧移为10 ms,特征维数为40。图 1中: v表示语音特征向量,h表示隐藏层,M表示隐藏层个数,W表示权值矩阵。DNN模型训练和解码时,首先以当前语音帧为中心,前后各取5帧组成上下文相关特征向量。这一特征向量经过线性判别式分析(linear discriminant analysis, LDA) 映射为200维向量,再经过全局倒谱归一化(cepstral mean and variance normalization, CMVN) 去除信道影响后作为DNN的输入。
图 1 DNN-HMM模型框架图
图选项





本文采用的DNN的结构如下:输入层含有200个输入单元,对应200维特征向量(Fbank+LDA+CMVN);每个隐藏层含有1 200个单元,共包含4个隐藏层;输出层包括3 421个单元,对应HMM系统中的3 421个概率密度函数(probability density function, PDF)。训练方法采用随机梯度下降(stochastic gradient descent, SGD) 算法,训练准则包括交叉熵(cross-entropy, xEnt) 和最小音素错误率(minimum phone error, MPE) 两种。
3.2 语言模型THUYG-20基线系统采用基于词的三元文法(3-gram) 模型作为语言模型。模型采用SRILM工具(http://www.speech.sri.com/projects/srilm/) 进行训练,应用Kneser-Ney折扣(KN-discount) 平滑方法处理低频词和新词。这一模型训练方法简单,应用方便。
本文还报告了基于词素的语言模型识别结果。该模型不作为THUYG-20基线系统的一部分,但提供了一种基于维吾尔语特性的语言模型增强方案。因为维吾尔语具有很强的黏着性,词的形变数目众多,对词表覆盖率提出了很大挑战,同时也产生了训练数据稀疏问题。文[20]提出了基于词素对维吾尔语进行建模的方法,有效解决了数据稀疏问题。
具体而言,基于词素的方法首先对候选单词进行词干与后缀划分,然后选择最有代表性的词干-后缀二元组,以该二元组集合作为词表进行三元文法语言模型建模。通过将词降解为二元组,有效控制了词表规模,解决了数据稀疏问题,使得语言模型训练更加鲁棒。
3.3 加噪训练THUYG-20发布的测试数据集TEST-N含有混合了各种比例噪声的带噪数据。本文采用文[25]提出的加噪训练方法提高基线系统在TEST-N上的识别性能。在DNN训练过程中对训练数据随机加入多种噪声,使得DNN模型具有更好的可扩展性,提高基线系统的抗噪能力,且不会对纯静语音测试集(TEST-A) 上的结果产生显著影响。
3.4 维吾尔语识别系统性能基于THUYG-20构建的维吾尔语识别系统实验包括3组:实验1测试基线系统的识别结果,实验2测试基于词素的语言模型的识别结果,实验3为引入加噪训练之后在TEST-N上的识别结果。
3.4.1 实验1:基线系统性能THUYG-20基线系统包括纯净语音训练的DNN声学模型、基于词的三元文法语言模型、基于FST的静态解码。测试包括基于交叉熵和基于最小音素错误率两种准则训练的DNN模型。识别性能采用词错误率(word error rate, WER) 进行评价。在纯净无噪声测试集TEST-A上的识别结果见表 3前两行。可见,利用THUYG-20数据库和基线系统构建流程,可以得到一个相对较好的维吾尔语识别系统。当然,20%左右的错误率与当前最好的英语、汉语等主流语言的识别结果相比较还有相当差距,其中一个主要原因是THUYG-20的数据规模还不足以训练一个非常强大的声学模型。然而,本文作者相信通过增加训练数据来降低错误率并不是研究者关注的重点,基于当前数据规模(20 h) 采用更好的建模和训练方法以提高识别性能,比简单追求更大数据量对研究者更有意义。本文当前的性能指标只是提供一个基线标准,研究者可以在此基础上寻找更好的方法,特别是基于维吾尔语特性的优化方法,进一步提高识别系统性能。
表 3 两种语言模型在TEST-A上的识别结果
语言模型训练准则WER/%
基于词(基线系统)交叉熵
MPE
19.57
18.95
基于词素交叉熵
MPE
17.40
16.58


表选项






20 h的数据规模与国际上广泛应用的Aurora 4数据库类似,这说明基于这一规模的数据库,研究者完全可以进行包括模型结构、模型训练方法、噪声去除、语音增强等多方面的研究。
3.4.2 实验2:基于词素的语言模型的系统性能基于THUYG-20可以进行声学和语言建模等多方面研究。文[20]提出的基于词素的语言模型即是利用维吾尔语词表特点在语言模型上进行的探索。表 3后两行给出应用这一方法的识别结果。同实验1一样,测试在纯净数据集TEST-A上进行。可以看到,将词替换为词素进行语言模型建模可以有效提高系统的性能。
3.4.3 实验3:加噪训练系统性能实验1和2的训练数据都是纯净数据,测试结果基于无噪声测试集TEST-A。对于噪声数据集TEST-N, 识别性能将显著下降。基于交叉熵训练的基线系统在TEST-N上的识别性能如表 4所示。与表 3中的基线系统结果相比,加入噪声后,特别是白噪声和咖啡馆噪声,系统的识别性能显著下降。
表 4 基线系统在TEST-N上的识别结果
SNR/dBWER/%
白噪声汽车噪声咖啡馆噪声
-699.9623.4297.96
-399.8522.1791.80
099.3721.1579.67
396.1920.5663.57
686.8220.2749.25
972.7619.9538.02
纯净数据19.5719.5719.57


表选项






为提高系统在TEST-N上的识别性能,本文采用加噪训练方法增强DNN模型(见3.3节),加噪的具体参数见文[25]。表 5给出了系统经过加噪训练后的识别结果。可以看到,经过加噪训练后,在几乎所有测试条件下,系统识别性能都得到了显著提高。
表 5 基线系统加噪训练后在TEST-N上的识别结果
SNR/dBWER/%
白噪声汽车噪声咖啡馆噪声
-676.3521.8566.47
-362.7521.0451.82
051.6120.5240.02
341.5620.1431.96
634.9120.0026.97
930.4519.8424.15
纯净数据19.6719.6719.67


表选项






4 总结本文发布了一个开放的维吾尔语语音数据库THUYG-20,同时还发布了构建一个连续维吾尔语语音识别系统所需要的所有资源。本文作者希望通过这一数据库的发布,为对语音识别研究感兴趣的****提供可以快速学习和切入的资源,为维吾尔语语音研究者提供可以进行对比验证的标准平台。本文介绍了基于THUYG-20构建基线维吾尔语语音识别系统的方法,给出了该基线系统的性能,为维吾尔语语音识别研究提供了一个可以借鉴的标准。
THUYG-20不仅可用于语音识别研究,也可以用于说话人识别研究、维吾尔语语音和语言特性研究等多个领域。
THUYG-20为完全免费的维吾尔语连续语音数据库,供维吾尔语语音识别研究者免费使用。THUYG-20有利于促进维吾尔语语音数据库标准化工作。未来本文作者会进一步扩充该数据资源,并基于该资源发起更多合作研究和对比研究。

参考文献
[1] Journal of Central South University(Science and Technology), 41(2):649-654.-->王昆仑, 樊志锦, 吐尔洪江, 等.维吾尔语综合语音数据库系统[C]//第五届全国人机语音通讯学术会议.哈尔滨, 1998:366-368. WANG Kunlun, FAN Zhijin, Turhunjan, et al. Integrated speech corpus system of Uyghur language[C]//The 5th National Conference on Man-Machine Speech Communication. Harbin, China, 1998:366-368.
[2] Journal of Central South University(Science and Technology), 41(2):649-654.-->蔡琴, 吾守尔·斯拉木. 基于HTK的维吾尔语连续数字语音识别[J]. 现代计算机, 2007(4): 14–16.CAI Qin, Wushour Silamu. Uighur continuous digital speech recognition based on HTK[J]. Modern Computer, 2007(4): 14–16. (in Chinese)
[3] Journal of Central South University(Science and Technology), 41(2):649-654.-->那斯尔江·吐尔逊, 吾守尔·斯拉木, 陶梅.基于HTK的维吾尔语连续语音识别研究[C]//第7届中文信息处理国际会议.武汉, 2007. Nasirjan Tursun, Wushour Silamu, TAO Mei. Research of Uyghur continuous speech recognition based on HTK[C]//The 7th Conference on Chinese Information Processing. Wuhan, China, 2007.
[4] Journal of Central South University(Science and Technology), 41(2):649-654.-->努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木, 热依曼·吐尔逊. 基于音节的维吾尔语大词汇连续语音识别系统[J]. 清华大学学报:自然科学版, 2013, 53(6): 741–744.Nurmemet Yolwas, Wushor Silamu, Reyiman Tursun. Syllable based language model for large vocabulary continuous speech recognition of Uyghur[J]. Journal of Tsinghua University:Science and Technology, 2013, 53(6): 741–744. (in Chinese)
[5] Journal of Central South University(Science and Technology), 41(2):649-654.--> Nasirjan Tursun, Wushour Silamu. Large vocabulary continuous speech recognition in Uyghur:Data preparation and experimental results[C]//Chinese Spoken Language Processing. Kunming, China, 2008:1-4.
[6] Journal of Central South University(Science and Technology), 41(2):649-654.-->张小燕, 宿建军, 薛化建, 等. 维吾尔语语音识别语料库中的OOV研究[J]. 计算机工程与设计, 2012, 33(2): 772–776.ZHANG Xiaoyan, SU Jianjun, XUE Huajian, et al. Research on OOV problem in constructing Uyghur speech corpus[J]. Computer Engineering and Design, 2012, 33(2): 772–776. (in Chinese)
[7] Journal of Central South University(Science and Technology), 41(2):649-654.-->王昆仑. 维吾尔语音节语音识别与识别基元的研究[J]. 计算机科学, 2003, 30(7): 182–184.WANG Kunlun. A study of Uighur syllable speech recognition and the base element of the recognition[J]. Computer Science, 2003, 30(7): 182–184. (in Chinese)
[8] Journal of Central South University(Science and Technology), 41(2):649-654.-->王昆仑. 基于CDCPM的维吾尔语非特定人语音识别[J]. 计算机研究与发展, 2001, 38(10): 1242–1246.WANG Kunlun. Uighur speaker independent speech recognition based on CDCPM[J]. Journal of Computer Research & Development, 2001, 38(10): 1242–1246. (in Chinese)
[9] Journal of Central South University(Science and Technology), 41(2):649-654.-->努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木, 热依曼·吐尔逊. 维吾尔语大词汇语音识别系统识别单元研究[J]. 北京大学学报:自然科学版, 2014, 50(1): 149–152.Nurmemet Yolwas, Wushour Silamu, Reyiman Tursun. Research on recognition units of large vocabulary speech recognition system of Uyghur[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 149–152. (in Chinese)
[10] Journal of Central South University(Science and Technology), 41(2):649-654.-->努尔麦麦提·尤鲁瓦斯, 吾守尔·斯拉木. 维吾尔语连续语音识别声学模型优化研究[J]. 计算机工程与应用, 2013, 49(2): 145–147.Nurmemet Yolwas, Wushour Silamu. Optimization of acoustic model for Uyghur continuous speech recognition[J]. Computer Engineering and Applications, 2013, 49(2): 145–147. (in Chinese)
[11] Journal of Central South University(Science and Technology), 41(2):649-654.--> Wushour Silamu, Nasirjan Tursun. HMM-based Uyghur continuous speech recognition system[C]//World Congress on Computer Science and Information Engineering. Los Angeles, CA, USA, 2009:243-247.
[12] Journal of Central South University(Science and Technology), 41(2):649-654.-->那斯尔江·吐尔逊, 吾守尔·斯拉木. 基于隐马尔可夫模型的维吾尔语连续语音识别系统[J]. 计算机应用, 2009, 29(2): 2009–2011, 2025.Nasirjan Tursun, Wushour Silamu. Uyghur continuous speech recognition system based on HMM[J]. Computer Application, 2009, 29(2): 2009–2011, 2025. (in Chinese)
[13] Journal of Central South University(Science and Technology), 41(2):649-654.-->陶梅, 吾守尔·斯拉木, 那斯尔江·吐尔逊. 基于HTK的维吾尔语连续语音声学建模[J]. 中文信息学报, 2008, 22(5): 56–59.TAO Mei, Wushour Silamu, Nasirjan Tursun. The Uyghur acoustic model based on HTK[J]. Journal of Chinese Information Processing, 2008, 22(5): 56–59. (in Chinese)
[14] Journal of Central South University(Science and Technology), 41(2):649-654.-->杨雅婷, 马博, 王磊, 等. 多发音字典在维吾尔语方言语音识别中的应用[J]. 清华大学学报:自然科学版, 2011, 51(9): 1303–1306.YANG Yating, MA Bo, WANG Lei, et al. Multi-pronunciation dictionary based on Uyghur accent modeling for speech recognition[J]. Journal of Tsinghua University:Science and Technology, 2011, 51(9): 1303–1306. (in Chinese)
[15] Journal of Central South University(Science and Technology), 41(2):649-654.-->杨雅婷, 马博, 王磊, 等. 维吾尔语语音识别中发音变异现象[J]. 清华大学学报:自然科学版, 2011, 51(9): 1230–1233, 1238.YANG Yating, MA Bo, WANG Lei, et al. Uyghur pronunciation variations in automatic speech recognition systems[J]. Journal of Tsinghua University:Science and Technology, 2011, 51(9): 1230–1233, 1238. (in Chinese)
[16] Journal of Central South University(Science and Technology), 41(2):649-654.--> Mijit Ablimit, Neubig G, Mimura M. Uyghur morpheme-based language models and ASR[C]//Proceeding of ICSP. Beijing, China, 2010:581-584.
[17] Journal of Central South University(Science and Technology), 41(2):649-654.--> Mijit Ablimit, Askar Hamdulla, Kawahara T. Morpheme concatenation approach in language modeling for large-vocabulary Uyghur speech recognition[C]//Oriental COCOSDA. Hsinchu, China, 2011:112-115.
[18] Journal of Central South University(Science and Technology), 41(2):649-654.--> Mijit Ablimit, Kawahara T, Askar Hamdulla. Lexicon optimization for automatic speech recognition based on discriminative learning[C]//APSIPA SC. Xi'an, China, 2011:935-938.
[19] Journal of Central South University(Science and Technology), 41(2):649-654.--> Mijit Ablimit, Kawahara T, Askar Hamdulla. Discriminative approach to lexical entry selection for automatic speech recognition of agglutinative language[C]//ICASSP. Kyoto, Japan, 2012:5009-5012.
[20] Journal of Central South University(Science and Technology), 41(2):649-654.-->Mijit Ablimit, Kawahara T, Askar Hamdulla. Lexicon optimization based on discriminative learning for automatic speech recognition of agglutinative language[J]. Speech Communication, 2014, 60: 78–87. DOI:10.1016/j.specom.2013.09.011
[21] Journal of Central South University(Science and Technology), 41(2):649-654.-->薛化建, 董兴华, 周喜, 等. 基于子字单元的维吾尔语语音识别研究[J]. 计算机工程, 2011, 37(20): 208–210.XUE Huajian, DONG Xinghua, ZHOU Xi, et al. Research on Uyghur speech recognition based on subword unit[J]. Computer Engineering, 2011, 37(20): 208–210. (in Chinese)
[22] Journal of Central South University(Science and Technology), 41(2):649-654.--> LI Xin, CAI Shang, PAN Jielin. Large vocabulary Uyghur continuous speech recognition based on stems and suffixes[C]//Chinese Spoken Language Processing (ISCSLP). Tainan, China, 2010:220-223.
[23] Journal of Central South University(Science and Technology), 41(2):649-654.-->米日古力·阿布都热素, 艾克白尔·帕塔尔, 艾斯卡尔·艾木都拉. 基于电话语料的维吾尔连续音素识别[J]. 通信技术, 2012, 45(7): 54–56.Mirigul Abdursul, Akbar Pattar, Askar Hamdulla. Telephone speech corpus-based Uyghur continuous phoneme recognition[J]. Communication Technology, 2012, 45(7): 54–56. (in Chinese)
[24] Journal of Central South University(Science and Technology), 41(2):649-654.--> Povey D, Ghoshal A, Boulianne G, et al. The Kaldi speech recognition toolkit[C]//Proc of ASRU. Waikoloa, HI, USA, 2011.
[25] Journal of Central South University(Science and Technology), 41(2):649-654.-->YIN Shi, LIU Chao, ZHANG Zhiyong, et al. Noisy training for deep neural networks in speech recognition[J]. EURASIP Journal on Audio, Speech, and Music Processing, 2015, 2015(1): 1–14. DOI:10.1186/s13636-014-0045-2

相关话题/数据 数据库

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 低能耗的无线传感器网络隐私数据融合方法
    苘大鹏1,王臣业2,杨武1,王巍1,玄世昌1,靳小鹏11.哈尔滨工程大学信息安全研究中心,哈尔滨150001;2.哈尔滨工程大学国家大学科技园,哈尔滨150001收稿日期:2016-06-29基金项目:国家自然科学基金资助项目(61272537,61472098);中央高校基本科研业务费专项资金资助 ...
    本站小编 Free考研考试 2020-04-15
  • 基于海量车牌识别数据的相似轨迹查询方法
    赵卓峰,卢帅,韩燕波北方工业大学大规模流数据集成与分析技术北京市重点实验室,北京100144收稿日期:2016-06-28基金项目:国家自然科学基金重点项目(61033006);北京市自然科学基金项目(4162021)作者简介:赵卓峰(1977-),男,副研究员。E-mail:edzhao@ncut ...
    本站小编 Free考研考试 2020-04-15
  • Suomi-NPP夜间灯光数据与GDP的空间关系分析
    郭永德1,高金环2,马洪兵11.清华大学电子工程系,北京100084;2.北京大学政府管理学院,北京100871收稿日期:2015-10-27基金项目:清华大学自主科研计划资助项目(20131089381)作者简介:郭永德(1988-),男,博士研究生通信作者:马洪兵,副研究员,E-mail:hbm ...
    本站小编 Free考研考试 2020-04-15
  • 基于IFC的绿色性能分析数据转换与共享
    林佳瑞,张建平清华大学土木工程系,北京100084收稿日期:2016-05-16基金项目:国家“八六三”高技术项目(2013AA041307);国家自然科学基金面上项目(51278274);清华大学—广联达BIM中心项目(RCBIM)作者简介:林佳瑞(1987-),男,博士研究生.通讯作者:张建平, ...
    本站小编 Free考研考试 2020-04-15
  • 考虑交通大数据的交通检测器优化布置模型
    孙智源,陆化普清华大学土木工程系,交通研究所,北京100084收稿日期:2015-05-20基金项目:“十二五”国家科技支撑计划资助项目(2014BAG01B04);清华大学苏州汽车研究院(吴江)返校经费课题(2015WJ-B-02)摘要:为了提高城市交通信息采集的准确性、可靠性和经济性,提出了一种 ...
    本站小编 Free考研考试 2020-04-15
  • LBS大数据中基于固定网格划分四叉树索引的查询验证
    宁博,裴晓霞,李玉居,裴新宇大连海事大学信息科学技术学院,大连116026收稿日期:2015-09-28基金项目:国家自然科学基金青年基金项目(61202083)国家自然科学基金面上项目(61272369)辽宁省教育厅一般项目(L2014055)辽宁省电力有限公司科技项目(2015YF-67)中央高 ...
    本站小编 Free考研考试 2020-04-15
  • 谁在中国股票市场中“博彩”?——基于个人投资者交易数据的实证研究
    廖理1,梁昱2,张伟强11.清华大学五道口金融学院,北京100083;2.清华大学经济管理学院,北京100084收稿日期:2015-10-13基金项目:国家自然科学基金重点项目(71232003);国家自然科学基金面上项目(71271214,71573147);高等学校博士学科点专项科研基金(201 ...
    本站小编 Free考研考试 2020-04-15
  • 基于多分支路径树的云存储数据完整性验证机制
    李勇1,2,姚戈1,雷丽楠1,张晓菲3,杨鲲41.北京交通大学电子信息工程学院,北京100044;2.福建师范大学福建省网络安全与密码技术重点实验室,福州350007;3.中国信息安全测评中心,北京100085;4.中国计量科学研究院,北京100029收稿日期:2016-01-22基金项目:中央高校 ...
    本站小编 Free考研考试 2020-04-15
  • 历年数据
    提问问题:历年数据学院:提问人:18***11时间:2019-09-1914:11提问内容:山东大学研究生招生信息网首页历年数据那里硕士自命题和硕士报录比,写的2019点进去是2018年的数据。回复内容:近期就会公布。 ...
    本站小编 山东大学 2019-11-26
  • 专业课859数据结构
    提问问题:专业课859数据结构学院:提问人:15***98时间:2018-09-2115:47提问内容:专业课859数据结构c语言和c加加只需掌握一门语言就可以了吧?回复内容:这个专业问题研招办无从回答,请电询我校计通学院0532-86981339 ...
    本站小编 中国石油大学(华东) 2019-11-26