融合句嵌入的VAACGAN多对多语音转换*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

语音转换是一种改变源说话人的声音，使之听起来像目标说话人声音的技术，但其中的语义信息保持不变^[1-2]。语音转换在构音障碍患者语音修复、影视配音、个性文语合成、增大语音数据和歌唱语音合成等方面有广阔的市场应用前景^[3]。
非平行文本条件下的语音转换研究取得了很大进展，主要经历了3个阶段：①借助自动语音识别(Automatic Speech Recognition, ASR) 和文语转换(Text-To-Speech, TTS)等系统构建伪平行文本^[4-5]，从而用平行转换方法完成转换；②采用说话人自适应^[6-7]和说话人归一化等方法对已有的平行语音转换模型实现更新，从而完成非平行文本转换；③当前的主流方法是通过解纠缠(Disentangle)语义和说话人个性特征^[8-10]，在转换过程中对语义信息和目标说话人个性信息进行重构。
基于C-VAE模型的语音转换方法^[8]，其编码器解纠缠语音的语义和说话人的个性信息，解码器通过对语义和指定说话人身份标签进行重构完成语音的转换，不需要任何对齐操作，实现从平行文本向非平行文本的跨越，并且通过标签的引入实现了多对多的语音转换。由于C-VAE模型基于理想假设，认为观察到的数据服从高斯分布，导致解码器的输出语音过度平滑，转换后的语音质量不高。Hsu等^[9]提出的变分自编码生成对抗网络(Variational Autoencoding Wasserstein Generative Adversarial Network, VAWGAN)模型通过在C-VAE中引入Wasserstein生成对抗网络(Wasserstein GAN，WGAN)^[11]，将VAE的解码器指定为WGAN的生成器来优化目标函数，一定程度上提升了语音的质量。但是，上述2种方法都基于优化相同的概率图模型，而隐变量存在的过度正则化问题会直接导致转换语音模糊不清。此外，WGAN在模型训练过程中存在性能不稳定及收敛速度较慢等问题，导致转换后合成语音质量不高，因此，基于VAWGAN的语音转换系统的性能仍有待提升。
针对上述问题，Saito等^[12]于2018年提出利用预训练的ASR模型得到音素后验概率(Phonetic Posteriorgrams, PPG) 来增强隐变量表征语义内容的能力，以进一步提高基于C-VAE模型的性能，然而该方法直接依赖于经过大量语料和长时间训练得到的ASR系统的性能，准确率也不稳定。鉴于此，本文提出融合句嵌入(Sentence Embedding, SE)的辅助分类器生成对抗网络(Auxiliary Classifier GAN, ACGAN)语音转换方法。先构建基于变分自编码辅助分类器生成对抗网络(Variational Autoencoding Auxiliary Classifier GAN，VAACGAN) 的语音转换模型，通过引入ACGAN取代基准模型中的WGAN，利用其鉴别器同时鉴别输入频谱特征的真假及所属的说话人类别，有效提升生成频谱的质量。在此基础上，进一步提出通过预训练的文本编码器将说话人语句编码为句嵌入，将其融合到VAACGAN模型中，作为与说话人无关的语义表征直接参与模型训练，能够显著增强隐变量表征语义信息的能力。
1 基于VAWGAN的语音转换基准方法 VAWGAN模型由编码器、生成器和鉴别器3部分构成，图 1为基于VAWGAN模型的频谱转换原理图。给定源说话人和目标说话人的频谱特征帧分别为：X_s={x_{s, n}，n=1, 2, …N_s}，X_t={x_{t, n}，n=1，2, …, N_t}，N_s为源说话人的帧总数，N_t为目标说话人的帧总数，s和t分别表示源和目标说话人身份的索引。在VAWGAN模型中，通过编码器将说话人的频谱特征编码为隐变量z_n，认为是独立于说话人的语义信息。在此编码过程中，由于可以不考虑输入频谱特征帧的说话人身份信息，可将输入x_{s, n}、x_{t, n}统一表示为x_n。在可读性不受影响的前提下，可忽略频谱特征帧索引。在下述过程中，x表示输入频谱特征，y表示说话人身份标签，z表示语义表征隐变量。基于VAWGAN模型的频谱特征转换可以表示为

(1)

图 1 基于VAWGAN模型的频谱转换原理图 Fig. 1 Schematic diagram of spectrum conversion based on VAWGAN model

图选项

式中：

表示通过输入的频谱特征x和目标说话人的标签y得到转换语音；f_?(·)表示编码器，说话人身份标签y由传统说话人编码向量one-hot表示，以区分不同说话人的身份信息；生成器f_θ(·)通过结合隐变量z和说话人身份标签y构成联合特征(z, y)，以重构目标说话人的频谱特征帧

，再将真实频谱特征x和生成器重构的频谱特征

一同输入鉴别器，实现输入频谱真假(real/fake)的鉴别，以生成接近目标说话人的频谱特征。
由上述可知，VAWGAN模型通过在C-VAE模型中引入WGAN，将C-VAE的解码器指定为WGAN的生成器来优化目标函数。因此，该模型完整的目标函数表示为

(2)

式中：L(x; ?, θ)表示C-VAE模块的目标函数；α为调节WGAN损失的系数；J_WGAN表示WGAN模块的目标函数，即

(3)

其中：E_{x~p_t^*}[·]表示鉴别器鉴别输入为真实频谱特征分布的概率期望；D_ψ(x)表示鉴别器对输入真实频谱特征x的鉴别；G_θ(z, y)为生成频谱特征；E_{z~q_?(z|x)}[·]表示鉴别器鉴别输入为生成频谱特征分布的概率期望。
式(2) 中，L(x; ?, θ)表达式为

(4)

式中：D_KL(·‖·)表示KL散度(Kullback-Leibler Divergence, KLD)；E_{q_?(z|x)}[·]表示解码过程中的重构损失；p_θ(z)为隐变量z的先验分布，服从标准多维高斯分布；q_?(z|x)表示编码过程；p_θ(x|z, y)表示解码过程；?和θ分别表示编码器和生成器参数，通常使用随机梯度下降法来更新C-VAE模型中的网络参数。
在式(4)中，KL项先验的影响很大，假定观测数据严格服从标准高斯分布^[13]，该假设将导致模型学习到的目标函数存在缺陷，获得的隐变量分布较为简单，难以完整代表语义信息的基础结构。
综上分析可知，VAWGAN模型基于解纠缠语义和说话人个性信息的思想，完全解除了对平行训练数据的依赖。此外，通过在解码阶段指定说话人标签，能够实现多对多的语音转换，引入WGAN一定程度上提升了C-VAE模型的性能，但是仍然存在两大问题：①为了使训练更为稳定，基准模型中的WGAN采用权重剪切(Weight Clipping)操作，将权重剪切到一定范围内，但是仍然存在训练困难、收敛较慢等问题^[3]；②由于VAWGAN与C-VAE模型都基于优化相同的概率图模型，在隐变量中经常观察到过度正则化效应，易导致语义内容趋于消失，转换后的语音模糊不清。基于此，本文将从改进生成对抗网络的性能及增加语义隐变量约束两方面对基准模型提出改进。
2 融合句嵌入的VAACGAN语音转换本文提出融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN-SE) 语音转换模型，创新点在于：①将ACGAN模型应用到语音转换领域中^{[3, 13]}，其鉴别器能够同时鉴别输入频谱包络特征的真假及其所属的说话人类别，以提升语音转换模型生成语音的清晰度和自然度；②从增加语义隐变量约束的角度，通过预训练一个文本编码器，将说话人语句编码为句嵌入，作为语义内容的有效辅助，再将其融入VAACGAN-SE模型的C-VAE模块中参与训练，以增强隐变量表征与说话人无关的语义内容的能力，使得源语音的语义内容在训练和转换阶段都能得到有效保持，有效克服隐变量的过度正则化效应问题，进一步改善模型的性能。
2.1 ACGAN原理 ACGAN是Odena等^[14]于2017年提出用于图像合成的一种方法，与传统WGAN不同之处在于：ACGAN的鉴别器中包含能够输出训练数据的类别标签的辅助解码器网络^{[3, 13]}。本文方法采用ACGAN取代基准模型中的WGAN，通过联合训练编码器和生成器，有效区分不同说话人的频谱特征，生成的频谱包络特征更加接近目标说话人，从而提升语音质量，且训练过程更加稳定。
ACGAN原理如图 2所示。ACGAN中，除了输入频谱特征外，每一个生成的频谱特征都具有对应的类别标签cl~p_cl，cl利用传统说话人编码one-hot表示，在该方法中表示说话人身份标签y。生成器G使用频谱特征x和说话人类别标签cl来生成样本X′=G(x, cl)，鉴别器D的输入为真实频谱特征X和生成样本X′，输出为所属的说话人类别CL及其预测的频谱特征的“真假”S^[3]。

图 2 ACGAN原理示意图 Fig. 2 Schematic diagram of ACGAN

图选项

ACGAN鉴别器的目标函数由2部分构成，如下：

(5)

(6)

式中：L_s和L_cl分别为正确来源的对数似然和正确类的对数似然；P(S=real|X)表示鉴别器D判定频谱特征为真的概率；P(CL=cl|X)表示鉴别器D判定频谱特征属于说话人标签cl的概率^{[3, 13]}。在模型的训练过程中，鉴别器D的训练目标是最大化L_s+L_cl，同时训练生成器G是最大化L_s－L_cl。
2.2 句嵌入的融合与训练通过增强隐变量表征语义的能力，以进一步提升转换语音的质量是本文在上述研究基础上的深入探索。创新点在于：在C-VAE模块训练过程中融合了句嵌入，其代表与说话人无关的语义内容的隐变量，通过预训练文本编码器(Text-Encoder) 来获得。因此，C-VAE模块的目标函数由第1节中的式(4)更新为

(7)

式中：z_p表示句嵌入。解码器网络p_θ(x|z, z_p, y)中融入了句嵌入参与模型训练，增强了C-VAE模块提取与说话人无关的语义隐变量的能力，使得源语音中的语义信息得到充分的表征和重建。如图 3所示，与图 3(a)传统C-VAE模型不同，图 3(b)为本文融合句嵌入的C-VAE模型原理示意图^[13]，图中实线表示频谱特征参数x生成隐变量z和句嵌入z_p，虚线表示通过联合矢量(z, z_p, y)来重构频谱特征参数x。

图 3 传统C-VAE模型与本文融合句嵌入的C-VAE模型对比 Fig. 3 Comparison of conventional C-VAE model and proposed model based on C-VAE with sentence embedding

图选项

本文选取VCC2018语料库^[15]进行语音转换模型的训练和测试，该语料库是由国际行业内挑战赛提供的标准数据库，其中训练语料包含语句对应的转录，即句子的语义内容。因此，本文方法利用数据库所提供的转录，通过Arora等^[16]提出的由词嵌入获得训练语料的准确句嵌入算法。然而在转换阶段，由于任意的测试语料没有转录，需要提供给转换阶段一个预训练好的文本编码器，以生成测试语料对应的句嵌入。

2.2.1 训练语料的句嵌入提取在训练阶段，通过Arora等^[16]提出的句嵌入提取算法，先将训练语料所对应转录中每个单词表示为词嵌入^[13]，再将句嵌入表示成词嵌入的加权平均值：

(8)

式中：S表示单词所处的句子，其绝对值表示句子中包含的单词数量；v_n为单词n对应的词嵌入；z_u为获得的句嵌入；a为超参数；p(n)为单词n在整个语料库中出现的概率^[3]。将z_u形成矩阵的第一个奇异值记为u，通过z_u减去在向量u上的投影^[13]，即可得到编码之后的句嵌入表示：

(9)

2.2.2 文本编码器的训练及转换语料的句嵌入提取基于VAACGAN-SE模型的频谱转换训练过程如图 4所示，VAACGAN-SE增加了能够生成句嵌入的文本编码器的预训练。

图 4 基于VAACGAN-SE模型的频谱转换的训练过程 Fig. 4 Training process of spectrum conversion based on VAACGAN-SE model

图选项

通过训练文本编码器来构建句嵌入和频谱包络特征之间的映射关系，如图 4所示，将频谱包络特征输入文本编码器中可以获得相应语句的句嵌入。文本编码器具体训练过程如下^[13]：首先，将语料库提供的训练语句的转录编码为句嵌入z_p；然后，利用{频谱包络特征x，句嵌入z_p}对训练文本编码器，经过训练输出预测得到句嵌入

，z_p和

之间的误差通过L₂损失函数度量：

(10)

式中：M为训练语句的数量。文本编码器与其他网络联合训练，迭代优化使文本编码器的损失函数尽可能小，直至实验设置的最大迭代次数。在转换阶段，将转换语料的频谱包络特征输入预训练好的文本编码器，就可以提取句嵌入。
2.3 融合句嵌入的VAACGAN语音转换系统
2.3.1 训练阶段采用WORLD^[17]声码器，从说话人的训练语句中提取3部分特征，包括频谱包络特征x、基频f₀及非周期特征(Aperiodicities, APs)^[18]。其中，频谱包络特征x输入VAACGAN-SE模型进行训练，具体训练过程如图 4所示，VAACGAN-SE模型的输入是频谱包络特征x，充分训练后得到认为独立于说话人的语义信息z；同时将频谱包络特征x及由训练语料转录生成的准确句嵌入z_p作为文本编码器的输入，实现文本编码器的预训练。生成器将获得的隐变量z、句嵌入z_p和表示说话人身份的one-hot向量相结合，重构特定说话人的频谱包络特征

。
VAACGAN-SE模型的目标函数为

(11)

式中：L(x; ?, θ)为C-VAE模块中融合了句嵌入z_p的目标函数，具体表达式如式(7)所示；α为ACGAN的损失系数；J_ACGAN为ACGAN部分损失函数。
ACGAN的生成器中结合了句嵌入z_p：

(12)

式中：D_ψ(·)和D_{ψ_cl}(·)分别为鉴别器对频谱特征真假和所属类别的判定输出；loss(·)函数表示鉴别器预测的频谱特征类别和真实类别之间的交叉熵损失。
频谱特征类别损失表示如下：

(13)

在ACGAN中，生成器的损失函数为

(14)

式中：β为鉴别器鉴别输入为生成频谱特征分布的概率期望系数；优化目标为

。
在ACGAN中，鉴别器的损失函数为

(15)

优化目标为

。
基频取对数后，在源说话人的对数基频lnf₀与目标说话人的对数基频lnf′₀之间建立映射关系^[19]：

(16)

式中：μ、μ′和σ、σ′分别表示源说话人和目标说话人对数基频的均值和均方差。

2.3.2 转换阶段采用WORLD声码器从测试语料中提取^{[3, 13]}说话人语句的频谱包络特征x、基频及非周期性特征；将x输入训练好的VAACGAN-SE模型中，得到转换的频谱包络特征

；通过式(16)表示的映射关系^[19]实现源说话人和目标说话人基频的转换；非周期特征保持不变；联合

、lnf′₀和非周期特征通过WORLD声码器得到转换语音。
3 实验与分析本文实验是在Python平台环境下实现，在Intel(R) Xeon(R) CPU E5-2660 v4 @ 2.00 GHz、NVIDIA Tesla V100 (rev a1)的Linux服务器上运行。采用标准通用数据库VCC2018^[15]中提供的非平行语料，共4名源说话人(SF3、SF4、SM3和SM4)和4名目标说话人(TF1、TF2、TM1和TM2)，共构成16个源-目标说话人转换对，即16个转换情形^[3]。每个说话人包含有81个训练语句，35个测试语句。
在VAACGAN-SE模型中，文本编码器(Text-Encoder)与编码器(Encoder)的结构都是采用二维卷积神经网络，包括5个卷积层和1个全连接层^{[3, 13]}，5个卷积层的过滤器大小为7×1，步长为3，过滤器深度设置为16、32、64、128和300，激活函数采用LReLU函数^[18]。所述的鉴别器与VAWGAN网络不同，其中多了一层输出语音数据类别标签的网络层。编码器、生成器的网络结构与VAWGAN基准模型保持一致。图 5为本文提出模型的网络结构示意图。图中：h、w和c分别为高度、宽度和通道数，k和s分别为卷积层的内核大小和步长，Conv、Deconv、Fully Connected和Batch norm分别表示卷积、反卷积(转置卷积)、全连接层和批量归一化。频谱包络特征和非周期性特征为513维，隐变量z和句嵌入分别设置为128维和300维^[13]，实验中训练批次大小为16，学习率为0.000 1，最大迭代次数设置150 000。

图 5 基于VAACGAN-SE模型的网络结构示意图 Fig. 5 Schematic diagram of network structure based on VAACGAN-SE model

图选项

采用通用的客观评价和主观评价对本文提出的VAACGAN-SE模型进行性能评估，并将其与基准模型VAWGAN进行对比。
3.1 客观评价梅尔倒谱失真距离(Mel-Cepstral Distortion, MCD) 作为业界公认的客观评价标准^[3]，用来衡量转换语音与目标语音之间的频谱相似度^[1-2]，MCD的计算公式如下：

(17)

式中：c_d和

分别为目标语音和转换语音的第d维梅尔倒谱系数；D为总维数^[3]；MCD单位为dB。
图 6为4种模型在16种转换情形下的MCD对比。分析可知，VAWGAN、VAACGAN、VAWGAN-SE和VAACGAN-SE模型在16种转换情形下的平均MCD值分别为5.69、5.35、5.44、5.31 dB，本文提出的VAACGAN、VAWGAN-SE和VAACGAN-SE模型相比较基准模型分别降低了5.98%、4.39%和6.67%，表明ACGAN和句嵌入的引入，转换语音的频谱相似度更好，证实该方法能够有效地提高转换语音的合成音质。

图 6 16种转换情形下4种模型的转换语音MCD对比 Fig. 6 Comparison of MCD of converted speech by four models in 16 kinds of conversion cases

图选项

如图 7所示，在源-目标说话人对为SF3-TM1转换情形下，2种模型得到的转换合成语音与源语音和目标语音的语谱图对比。分析可知，VAACGAN-SE模型转换后合成语音的语谱图相比基准模型VAWGAN，具有更完整的基音和谐波信息，以及更清晰的细节，在直观对比中，说明本文模型得到的转换语音与目标说话人的语音更为接近，在保持语义信息和说话人个性信息两方面更为完整。

图 7 源-目标说话人对为SF3-TM1转换情形下基准模型VAWGAN与本文VAACGAN-SE模型转换语音的语谱图对比 Fig. 7 Comparison of spectrogram between baseline VAWGAN and proposed VAACGAN-SE in voice conversion case of SF3-TM1

图选项

3.2 主观评价采用平均意见得分(Mean Opinion Score, MOS) 和ABX值来分别评测转换语音的语音质量和个性相似度。主观评测人员为20名语音研究工作者，每个转换情形下有35句转换语音，从4种模型各自的16种转换情形下为每个人随机分配一句，并将不同方法对应的语句进行系统置乱。
在MOS测试中，评测人员对测听的转换语音进行质量打分，主要分为5个等级^[3]：1分表示非常差，2分表示较差，3分表示可以接受，4分表示良好，5分表示非常好。在实验结果统计中，将16种转换情形根据不同性别划分为四大类：包括相同性别转换，即男到男、女到女2类；不同性别转换男到女、女到男2类。4种模型转换语音的MOS值对比如图 8所示。

图 8 四类转换情形下4种模型转换语音的MOS值对比 Fig. 8 Comparison of MOS of voice conversion by four models under four conversion categories

图选项

从实验结果对比分析可得，VAWGAN、VAACGAN、VAWGAN-SE和VAACGAN-SE的平均MOS值分别为3.36、3.59、3.51和3.64，与基准模型VAWGAN比较，后3种模型的平均MOS值分别提高了6.85%、4.46%和8.33%，表明本文提出的ACGAN和句嵌入的融合能够有效改善合成语音的音质，提高听觉质量。
在ABX测试中，X代表转换语音，评测人员对测评语句进行评测，来判断转换语音X更加接近源说话人语音A还是目标说话人语音B。本文将16种转换情形划分为相同性别转换和不同性别转换，测试结果分别如图 9和图 10所示。其中，A(sure) 用来表示确定判断转换语音为源说话人，A(not sure) 表示不完全确定转换语音是源说话人但很像^{[3, 13]}，B(sure) 表示确定判断转换语音为目标说话人，B(not sure) 表示不完全确定转换语音是目标说话人但很像。在结果分析中，将B(not sure)和B(sure) 两项的比例之和作为评价转换语音个性相似性的指标。在所有测评中，没有评测人员确定判断转换语音为源说话人，实验结果对比图中A(sure)该项没有比例显示。

图 9 相同性别转换情形下4种模型转换语音的ABX值 Fig. 9 ABX of voice conversion by four models for intra-gender

图选项

图 10 不同性别转换情形下4种模型转换语音的ABX值 Fig. 10 ABX of voice conversion by four models for inter-gender

图选项

在相同性别转换情形对比中，基准模型VAWGAN和本文提出的3种模型VAACGAN、VAWGAN-SE和VAACGAN-SE的ABX值分别为70.2%、83.1%、79.4%和83.5%，相比基准模型，本文提出的改进模型分别提升了18.4%、13.10%和18.9%。异性别转换情形下，4种模型的ABX值的比例分别为84.6%、88.7%、88.7%和89.2%，相比基准模型，本文提出的改进模型分别提升了4.8%、4.8%和5.4%。在不同性别转换情形下，4种模型的说话人个性相似度均不同程度地优于相同性别转换情形，分析认为，这是因为异性别转换情形下，不同性别之间的转换更为明显，人耳对说话人倾向性的测听会更为突出。在相同性别和不同性别2种情形下，平均ABX值分别提升了10.98%、8.59%和11.56%。
综上分析可得，相比基准模型，本文提出的VAACGAN-SE模型平均MCD值降低了6.67%，平均MOS值提高了8.33%，平均ABX值提高了11.56%，充分验证本文提出的ACGAN和融合句嵌入的策略有效改善了转换语音的音质，同时对说话人个性相似度的提升也十分显著。
4 结论本文提出一种融合句嵌入的VAACGAN多对多语音转换方法，能够高质量地完成非平行文本条件下的多对多语音转换。
1) 利用ACGAN的鉴别器增加对样本分类的能力，实现了对频谱包络特征真假及其所属说话人类别的同时判定，使得生成的频谱包络特征与目标说话人的频谱特征更加接近。
2) 通过预训练文本编码器将说话人语音编码为句嵌入，利用其增加训练过程中的约束，增强隐变量表征语义内容的能力，有效克服了C-VAE模块中隐变量过度正则化效应导致语义内容趋于消失这一问题。
下一步的研究工作将考虑韵律特征尤其是序列到序列的语音转换。

参考文献

[1]	GODOY E, ROSEC O, CHONAVEL T. Voice conversion using dynamic frequency warping with amplitude scaling, for parallel or nonparallel corpora[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(4): 1313-1323. DOI:10.1109/TASL.2011.2177820

[2]	TODA T, CHEN L H, SAITO D, et al. The voice conversion challenge 2016[C]//Interspeech, 2016: 1632-1636.

[3]	李燕萍, 曹盼, 石杨, 等. 非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换[J]. 复旦学报(自然科学版), 2020, 59(3): 322-329. LI Y P, CAO P, SHI Y, et al. Voice conversion based on variational autoencoder and auxiliary classifier generative adversarial network in non-parallel corpora[J]. Journal of Fudan University(Natural Science), 2020, 59(3): 322-329. (in Chinese)

[4]	DONG M, YANG C, LU Y, et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion[C]//2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Piscataway: IEEE Press, 2015: 488-494.

[5]	ZHANG M, TAO J, TIAN J, et al. Text-independent voice conversion based on state mapped codebook[C]//2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2008: 4605-4608.

[6]	NAKASHIKA T, TAKIGUCHI T, MINAMI Y. Non-parallel training in voice conversion using an adaptive restricted Boltzmann machine[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(11): 2032-2045. DOI:10.1109/TASLP.2016.2593263

[7]	MOUCHTARIS A, VAN DER SPIEGEL J, MUELLER P. Nonparallel training for voice conversion based on a parameter adaptation approach[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 952-963. DOI:10.1109/TSA.2005.857790

[8]	HSU C C, HWANG H T, WU Y C, et al. Voice conversion from non-parallel corpora using variational auto-encoder[C]//2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Piscataway: IEEE Press, 2016: 1-6.

[9]	HSU C, HWANG H, WU Y, et al. Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks[C]//Interspeech, 2017: 3364-3368.

[10]	ZHANG J, LING Z, DAI L R. Non-parallel sequence-to-sequence voice conversion with disentangled linguistic and speaker representations[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 28(1): 540-552.

[11]	ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning (ICML). New York: ACM Press, 2017: 214-223.

[12]	SAITO Y, IJIMA Y, NISHIDA K, et al. Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5274-5278.

[13]	石杨. 非平行文本条件下基于文本编码器, VAE和ACGAN的多对多语音转换研究[D]. 南京: 南京邮电大学, 2019: 34-69. SHI Y. Non-parallel voice conversion using ACGAN and variational autoencoders conditioned by sentence embedding[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019: 34-69(in Chinese).

[14]	ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[C]//Proceedings of the 34th International Conference on Machine Learning, 2017: 2642-2651.

[15]	LORENZO-TRUEBA J, YAMAGISHI J, TODA T, et al. The voice conversion challenge 2018: Promoting development of parallel and nonparallel methods[C]//The Speaker and Language Recognition Workshop, 2018: 195-202.

[16]	ARORA S, LIANG Y Y, MA T Y. A simple but tough-to-beat baseline for sentence embeddings[C]//ICLR, 2017: 1-16.

[17]	MORISE M, YOKOMORI F, OZAWA K. WORLD: A vocoder-based high-quality speech synthesis system for real-time applications[J]. IEICE Transactions on Information and Systems, 2016, 99(7): 1877-1884.

[18]	MAAS A L, HANNUN A Y, NG A Y. Rectifier nonlinearities improve neural network acoustic models[J]. Computer Science, 2013, 30(1): 1152-1160.

[19]	左宇涛. 非平行文本条件下基于i-vector, VAE和GAN的多对多语音转换算法研究[D]. 南京: 南京邮电大学, 2019: 35-64. ZUO Y T. Research on many-to-many voice conversion based on i-vector, variational auto-encoder and generative adversarial networks for non-parallel corpora[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019: 35-64(in Chinese).