基于静音时长和文本特征融合的韵律边界自动标注

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2020-04-15

图 1 整体系统框架

图选项

本文系统的构建仿照人工标注的流程，如图 2所示。人工韵律标注的方法大致可归纳为：在机器自动分词对文本预处理的基础上，标注人员对照文本和音频的频谱图，在听取音频过程中，根据语法词所在的位置结构和实际发音情况微调生成韵律词，如发现频谱中有较大的“空隙”，则参考边界两侧音高和边界调，此外在对应的文本中结合自身经验和频谱“空隙”大小对韵律短语和语调短语进行标注。

图 2 韵律标注各环节类比

图选项

在静音时长特征提取过程中，传统方法采用基频、能量等参数以帧为单位建模，刻画短时发音能力较强，在以字或词为单位的归一化过程中会受噪声和音段切分精度不高的影响，削弱其刻画词间、短语间韵律关系的能力，属于较浅层的信息。本文所采用的静音判别模型，在结合自动音段切分与文本自动语法词分析的基础上，提取静音时长，将浅层以帧为单位的mel频率倒谱系数(mel frequency cepstrum coefficient，MFCC)转化为较深层次以词为单位的静音时长。在时长的提取及归一化过程中，将静音判别模型的输出概率和词的时长结合到对静音时长不同层面的描述过程中，共提取74维的静音时长信息。由于经过人工校对过的音段标注较少，且标注精度和一致性不高，本文采用无标注数据判别静音模型来提高模型的鲁棒性：先用小语料预训练，根据预训练的模型得到大的未标注的语料标签，对该大语料进行再训练。
在韵律标注模型训练过程中，采用层级预测的方式，运用基于LSTM的循环神经网络分别训练基于文本和声学特征的标注模型。声学参数静音时长已经过一系列处理，其特征的维度较低；而文本特征采用独热编码(one-hot)归一化的形式较为稀疏。因此，本文采用了对两通道分别训练，对模型的输出层采用决策融合的方式，相比直接将文本和声学层面在特征层面上融合的方式，韵律边界标注的效果有所提高。
2 静音时长特征提取静音时长特征的提取涉及图 1的声学参数提取、文本分析和静音时长提取3部分，具体流程如图 3所示，将提取好的39阶MFCC和经过预校对的文本使用音素自动切分工具得到音素的时间边界。文本通过语法词分析工具得到以语法词为单位的文本。但由此难以得到每个语法词间的静音段时长，因此在该环节加入一个静音判别模型以得到以帧为单位的静音段位置信息，结合音素时间边界和以语法词为单位的文本，得到最终的语法词间的静音段时长。

图 3 整体静音时长特征提取流程

图选项

2.1 静音判别模型静音判别模型的主要目的是将语料中各字之间的静音识别出来，然而本文面临的一个问题就是精确标注的每个字后带有静音标注的语料较少。同时，少量经过人工标注的语料也存在标注不准确的现象，其原因是部分字间的静音段长度较短和人工观察音频频谱存在一定的误差。用该数据训练出来的判别模型极易出现“过拟合”现象。
为了解决有标注数据较少的问题，本文采用了2轮训练的方式来扩充训练数据。第1轮运用已有的少量有标注数据训练一个静音标注模型，用该模型对大量无标注数据进行标注。第2轮训练使用第1轮扩充后的语料进行训练。此方法具有可拓展性，对某个特定需要标注的语料，该方法可以更加有针对性地训练静音判别模型。
2.2 静音时长提取本文对语法词间静音时长提取如下：
假定一句话由m个语法词组成，表示为[w₁, w₂, …, w_m]。
设定第i个词：第1个字的起始时刻为f_i^S，终止时刻为f_i^E；最后1个字的起始时刻为l_i^S，终止时刻为l_i^E。则对于第i个词，其静音段搜索区间为$\left[{\frac{{l_i^{\rm{S}} + l_i^{\rm{E}}}}{2}, \frac{{f_{i + 1}^{\rm{S}} + f_{i + 1}^{\rm{E}}}}{2}} \right]$。
设在该区间内共有t帧，对于第j帧音频，静音段判别模型的输出为o_j^α，则

$o_j^\alpha = \left\{ {\begin{array}{*{20}{c}}{1, }&{{p_j} \ge \alpha ;}\\{0, }&{{p_j} < \alpha. }\end{array}} \right.$

(1)

其中：p_j为第j帧为静音段的概率；α为置信度系数，0＜α＜1，默认情况为α=0.5。
对于第i个词与第i+1个词之间的绝对静音段时长为

$H_{{\rm{ab}}}^\alpha \left( i \right) = \sum\limits_{j = 1}^t {o_j^\alpha } .$

(2)

将模型输出概率信息融入时长信息，定义加权绝对时长为

$H_{{\rm{wab}}}^\alpha \left( i \right) = \sum\limits_{j = 1}^t {{p_j}o_j^\alpha } .$

(3)

考虑到长句和短句在实际发音时的静音时长有所差别，以句子为单位进行归一化处理，归一化后的时长为：

$H_{\mathit{n}{\rm{ab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{ab}}}^\alpha \left( i \right)}}{{\overline {H_{{\rm{ab}}}^\alpha } }}, $

(4)

$H_{\mathit{n}{\rm{wab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{wab}}}^\alpha \left( i \right)}}{{\overline {H_{{\rm{wab}}}^\alpha } }}.$

(5)

其中：$\overline {H_{{\rm{ab}}}^\alpha } $和$\overline {H_{{\rm{wab}}}^\alpha } $分别代表一句话的每个静音段的平均绝对时长和平均加权绝对时长。
考虑到静音时长与当前字整体时长比例，定义相对时长1为：

$H_{\mathit{r}{\rm{lab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{ab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right)}}, $

(6)

$H_{\mathit{r}{\rm{lwab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{wab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right)}}.$

(7)

考虑到静音时长会受到静音段前后相邻2个字的时长影响，定义相对时长2为：

$H_{\mathit{r}{\rm{2ab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{ab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right) + {D_{\rm{S}}}\left( {i + 1} \right)}}, $

(8)

$H_{\mathit{r}{\rm{2wab}}}^\alpha \left( i \right) = \frac{{H_{{\rm{wab}}}^\alpha \left( i \right)}}{{{D_{\rm{E}}}\left( i \right) + {D_{\rm{S}}}\left( {i + 1} \right)}}.$

(9)

其中：D_E(i)代表第i个词最后一个字的时长，D_S(i+1)代表第i+1个词开头第一个字的时长。
静音段特征应该对不同韵律层级的标注更有针对性：在比较严格的判别条件下，只有语调短语等较大的静音段才会被识别，此时的时长特征更易于区分语调短语；在判别条件比较宽松的情况下，词之间的静音时长中更加细微的差异得到体现，更加易于区分韵律词与非韵律词。因此，本文取α范围为0.1~0.9，以0.1为间隔递增，得到9组特征。
3 模型决策融合声学特征是连续特征，文本特征是离散特征；且静音时长这组声学特征已经过一系列处理，具有明显的物理意义，而文本特征属于浅层特征。因此，直接将文本和声学特征在特征层面融合不太合理。本文采用的是模型决策融合的方式，即分别使用文本特征和声学特征训练韵律边界标注模型，在决策层面根据2个模型的输出判别结果概率和模型整体正确率作为决策依据，其决策过程具体为

$f\left( {{x_{\rm{a}}}, {x_{\rm{t}}}} \right) = \left\{ \begin{array}{l}{f_{\rm{a}}}\left( {{x_{\rm{a}}}} \right), \;\;\;{P_{\rm{a}}}\left( C \right) > {P_{\rm{t}}}\left( C \right); \\{f_{\rm{t}}}\left( {{x_{\rm{t}}}} \right), \;\;\;{P_{\rm{t}}}\left( C \right) > {P_{\rm{a}}}\left( C \right).\end{array} \right.$

(10)

其中：

${P_{\rm{a}}}\left( C \right) = {P_{\rm{a}}}\left( {C|{f_{\rm{a}}}\left( {{x_{\rm{a}}}} \right)} \right){P_{\rm{a}}}\left( {{f_{\rm{a}}}\left( {{x_{\rm{a}}}} \right)} \right), $

(11)

${P_{\rm{t}}}\left( C \right) = {P_{\rm{t}}}\left( {C|{f_{\rm{t}}}\left( {{x_{\rm{t}}}} \right)} \right){P_{\rm{t}}}\left( {{f_{\rm{t}}}\left( {{x_{\rm{t}}}} \right)} \right).$

(12)

f_a(x_a)和f_t(x_t)分别是基于声学和文本特征的分类器，P_a(C)和P_t(C)表示分类器模型整体正确率，P_a(C|f_a(x_a))和P_t(C|f_t(x_t))表示分类器的先验概率即输出判别结果概率。
4 实验及结果分析4.1 实验语料本文采用由专业女性录音人录制的用于语音合成的语料。该语料总共20 000句，总字数大于40 000，韵律边界(如韵律词、韵律短语、语调短语边界等)由2位专业标注人员对照音频和文本标注，有较高的一致性。语料使用语音合成前端语法词和词性分析工具完成，语法词切分正确率为96.6%，词性分析正确率为96.4%。语料被分为训练集、验证集和测试集3部分，其比例分别为80%、10%和10%。用于静音段判别模型训练的、人工标注好时间边界的语料占大语料的10%，共2 000句。
4.2 静音时长特征提取及对比1) 系统构建。
静音段判别模型依次使用小语料和扩充后的大语料训练，均采用DNN进行训练，网络输入均为39阶MFCC，小语料训练网络为2层128个隐含层节点数，大语料训练网络为2层256个隐含层节点，输出均含有2个softmax节点单元。
网络使用Rmsprop算法^[11]训练10代，batch-size为128, dropout^[12]系数为0.2。
2) 静音切分结果评价。
小语料和扩充后的大语料训练的静音判别模型准确率分别为97.4%和98.7%，原因是第1轮小语料训练相当于对原始人工标注的结果进行了修正，修正后重新标注的语料更加易于判别。
静音判别模型的准确率不足以说明通过该模型提取的特征对韵律标注的贡献。本文对提取的每一维特征采用一维线性分类器进行训练，计算单个特征进行韵律边界标注的准确率、召回率和F₁值，将第1和第2轮训练的静音判别模型所提取的参数进行对比实验，本文以韵律短语这一层级为例，实验结果如表 1所示。
表 1 各特征在一维线性分类器中评价结果(韵律短语)

α	H_ab^α(i)	H_wab^α(i)	H_r1ab^α(i)	H_r1wab^α(i)	H_r2ab^α(i)	H_r2wab^α(i)	H_nab^α(i)	H_nwab^α(i)
0.1	+0.2/76.1	+0.1/75.9	+0.3/72.3	+0.2/74.1	+0.2/75.0	+0.2/75.6	+0.3/74.5	+0.3/74.4
0.2	+0.3/75.8	+0.3/75.8	+0.4/73.4	+0.1/74.1	+0.1/74.9	+0.1/75.6	+0.2/74.8	+0.2/74.3
0.3	+0.3/76.4	+0.2/76.6	+0.3/73.8	+0.3/74.1	+0.3/75.5	+0.3/75.4	+0.3/74.5	+0.2/74.2
0.4	+0.6/76.2	+0.1/76.1	+0.5/73.6	+0.2/74.1	+0.4/75.2	+0.4/75.2	+0.1/73.9	+0.3/74.4
0.5	+0.4/75.6	+0.0/76.1	+0.3/73.8	+0.3/74.3	+0.2/75.3	+0.2/75.2	+0.3/74.4	+0.2/74.1
0.6	+0.6/75.8	+0.2/76.0	+0.2/74.0	+0.2/74.2	+0.2/75.2	+0.2/75.0	+0.3/74.7	+0.2/74.8
0.7	+0.2/75.8	+0.2/75.8	+0.3/73.9	+0.3/74.1	+0.3/74.9	+0.3/74.9	+0.2/75.8	+0.1/75.6
0.8	+0.3/75.2	-0.1/75.3	+0.3/74.2	+0.2/74.3	+0.3/74.5	+0.4/74.7	+0.3/75.9	+0.3/75.5
0.9	+0.2/75.5	+0.1/75.2	+0.2/74.6	+0.3/74.6	+0.2/75.0	+0.3/74.8	+0.2/75.9	+0.2/75.6
均值	+0.34/75.8	+0.12/75.9	+0.31/73.7	+0.31/74.2	+0.24/75.1	+0.24/75.2	+0.24/74.9	+0.22/74.8

表选项

表 1中所列的数据斜杠右侧为第2轮静音判别模型训练后所提取的静音时长特征各自在一维线性分类器中的评价效果，以F₁值作为评价指标；斜杠左侧为第2轮相比第1轮提取该特征后分类器评价指标F₁的变化值，正数代表提高，负数代表下降。
第2轮采用扩充标注数据训练后提高了静音段识别精度，各个静音时长特征单独用于韵律边界检测的F₁值有所提高了。
从该实验结果还可以观察到，将提取到的时长进行归一化处理，结合输出概率及考量静音段占发音音节时长的方式，可以更加全面地反映音节间的静音段在全句中声学时长的分布。
4.3 韵律边界标注系统构建及评价本节所有实验中，韵律词、韵律短语和语调短语边界的标注都采用层级标注的方式，低一级的韵律标注结果会作为高一级韵律标注模型的输入。
为了将文本特征和声学特征更好地结合以提高韵律层级自动标注的精度，本文尝试了2种方式：1)将文本和声学特征直接在特征层面融合；2)分别训练基于文本特征和声学特征的标注模型，在决策层面融合。
1) 基于传统声学特征的系统构建。
将传统方法中所采用的包括时长(音节时长、静音时长、相邻音节时长比例等)、基频(拟合参数、极值、区间、均值、梯度等)、能量(极值、均值、比例等)共20维特征，用基于LSTM的循环神经网络训练基于声学特征的韵律边界标注模型。
2) 基于静音时长声学特征的系统构建。
将音节时长和节2.2中介绍的一系列静音时长特征共74维，用基于LSTM的循环神经网络训练基于声学特征的韵律边界标注模型。
3) 基于文本特征的系统构建。
文本特征包括了词性、字和词层面的数量和位置信息、音调，还有根据5度标音法给出的字之间基频的差异。所有文本特征均采用独热编码的方式进行归一化，文本特征共214维。
4) 基于特征融合的系统构建。
将文本和静音时长声学特征直接组成一个288维的向量作为网络的输入，采用两层基于LSTM的循环神经网络进行训练。
5) 决策融合的系统构建。
将基于静音时长声学特征和文本特征分别训练得到模型，用节3的决策策略进行融合。
6) 实验中的超参数设置。
本文实验所采用的超参数如表 2所示。
表 2 实验中的超参数设置

系统	隐含层节点数	隐含层层数	学习率	输出层节点类型
基于传统声学特征	256	1	0.001	softmax
基于本文声学特征	256	2	0.001	softmax
基于文本特征	256	2	0.001	softmax
基于特征融合	512	2	0.001	softmax

表选项

7) 实验结果。
表 3为5个系统的评价效果，本文使用F₁值作为对各个韵律层级预测的评价指标。
表 3 韵律自动标注F₁评价结果

韵律层级	传统声学特征	本文声学特征	文本特征	特征融合	决策融合
韵律词	83.72	85.98	95.10	95.08	96.35
韵律短语	72.31	85.64	69.43	87.70	87.85
语调短语	74.62	84.81	84.24	85.66	85.83

表选项

8) 分析与讨论。
相比传统声学特征，本文所采用的静音时长等一系列声学特征对韵律标注的准确度有明显提高，其原因是本文所采用的是边界自动切分，其切分精度的误差会传递给后续基频、能量等参数的提取，会给传统方法所用到的声学参数带来较大误差。本文采用静音时长特征的出发点就是考虑到自动音节切分精度不高的问题，因此所提取的静音时长特征受切分不准的影响较小。从另一个角度看，传统声学特征中所涉及的关于基频的参数已经在文本特征中的声调信息有所体现；传统声学特征更多体现了某个音节的发音状况，而不是音节间的停顿。
声学特征对韵律短语这一层级的预测效果提高明显。在人工韵律标注中，这一层级是最难标注的，有较大的不一致性，本文所采用的静音时长对各音节间的停顿进行了较为细致的度量，弥补了本文所采用的文本特征对句内各音节间停顿关系描述的不足。
对于直接在特征层面对文本和声学特征进行融合的方法，本文发现：就韵律短语和语调短语这两个层级而言，特征融合提高了自动标注的性能；但是，对于韵律词这一层级，融合未能提高该层级标注的性能，其原因是静音时长对于韵律短语和语调短语这两个层级的判别区分度较大，而静音时长对韵律词这一层级的区分度较小，只要依靠文本特征就可以达到较好的识别效果。
决策融合的方式比特征融合的方式在各个韵律层级的标注效果都有所提高，其原因在于本文目前采用的特征融合方式对于静音时长和文本这2类不同特征不能进行有效的区分训练：静音时长特征比文本特征有着更大的贡献，但无法应用于目前的网络结构，同时该网络不能凸显较高韵律层级的标注。决策融合的方法由于考虑了各子模型的先验概率，更加易于“取长补短”，在每个标注过程中都综合给出最优的判别结果，从而获得较好的效果。
5 结论本文研究了静音时长特征的提取及其比传统声学特征在韵律边界自动标注性能上的提升。实验结果表明：在音频采用自动音节切分未经过人工校对的情况下，本文所采用的静音时长特征对韵律边界的检测性能有明显提升。同时，特征直接融合和模型决策融合的对比实验表明：模型决策融合更加适用于2类不同数据类型、不同抽象程度的特征，决策融合的方式可以进一步提高中文韵律边界标注的精度。
下一步将改进文本特征，如加入词向量等语义、语法结构特征等；同时，采用其他更合适网络拓扑结构，使文本特征和声学特征在模型中融合得更加合理。

参考文献

[1]	CHU M, QIAN Y. Locating boundaries for prosodic constituents in unrestricted Mandarin texts[J]. Computational Linguistics and Chinese Language Processing, 2001, 6(1): 61–82.
[2]	WANG M Q, HIRSCHBERG J. Automatic classification of intonational phrase boundaries[J]. Computer Speech & Language, 1992, 6(2): 175–196.
[3]	LEVOW G A. Automatic prosodic labeling with conditional random fields and rich acoustic features[C]//International Joint Conference on Natural Language Processing (IJCNLP). Hyderabad, India: 2008: 217-224.
[4]	ROSENBERG A, FERNANDEZ R, RAMABHADRAN B. Modeling phrasing and prominence using deep recurrent learning[C]//Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH). Dresden, Germany, 2015: 136-141.
[5]	BUSSER B, DAELEMANS W, BOSCH A. Predicting phrase breaks with memory-based learning[C]//4th ISCA Tutorial and Research Workshop (ITRW) on Speech Synthesis. Edinburgh, UK: University of Edinburgh, 2001: 29-34.
[6]	WIGHTMAN C W, OSTENDORF M. Automatic labeling of prosodic patterns[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(4): 469–481. DOI:10.1109/89.326607
[7]	HASEGAWA-JOHNSON M, CHEN K, COLE J, et al. Simultaneous recognition of words and prosody in the boston university radio speech corpus[J]. Speech Communication, 2005, 46(3): 418–439.
[8]	CHEN Q, LING Z H, YANG C Y, et al. Automatic phrase boundary labeling of speech synthesis database using context-dependent HMMs and N-Gram prior distributions[C]//Proceedings of the Annual Conference of the International Speech Communication Association (INTERSPEECH). Dresden, Germany, 2015: 227-234.
[9]	DING C, XIE L, YAN J, et al. Automatic prosody prediction for Chinese speech synthesis using BLSTM-RNN and embedding features[C]//Automatic Speech Recognition and Understanding (ASRU). Scottsdale, USA, 2015: 98-102.
[10]	LIN C K, LEE L S. Improved spontaneous Mandarin speech recognition by disfluency interruption point (IP) detection using prosodic features[C]//Ninth European Conference on Speech Communication and Technology. Lisbon, Portuguese, 2005: 78-85.
[11]	TIELEMAN T, HINTON G. Lecture 6. 6-Rmsprop: Divide the gradient by a running average of its recent magnitude[Z/OL]. [2017-01-01]. https://www.coursera.org/learn/neural-networks.
[12]	HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Computer Science, 2012, 3(4): 212–223.