删除或更新信息,请邮件至freekaoyan#163.com(#换成@)

融合句嵌入的VAACGAN多对多语音转换*

本站小编 Free考研考试/2021-12-25

语音转换是一种改变源说话人的声音,使之听起来像目标说话人声音的技术,但其中的语义信息保持不变[1-2]。语音转换在构音障碍患者语音修复、影视配音、个性文语合成、增大语音数据和歌唱语音合成等方面有广阔的市场应用前景[3]
非平行文本条件下的语音转换研究取得了很大进展,主要经历了3个阶段:①借助自动语音识别(Automatic Speech Recognition, ASR) 和文语转换(Text-To-Speech, TTS)等系统构建伪平行文本[4-5],从而用平行转换方法完成转换;②采用说话人自适应[6-7]和说话人归一化等方法对已有的平行语音转换模型实现更新,从而完成非平行文本转换;③当前的主流方法是通过解纠缠(Disentangle)语义和说话人个性特征[8-10],在转换过程中对语义信息和目标说话人个性信息进行重构。
基于C-VAE模型的语音转换方法[8],其编码器解纠缠语音的语义和说话人的个性信息,解码器通过对语义和指定说话人身份标签进行重构完成语音的转换,不需要任何对齐操作,实现从平行文本向非平行文本的跨越,并且通过标签的引入实现了多对多的语音转换。由于C-VAE模型基于理想假设,认为观察到的数据服从高斯分布,导致解码器的输出语音过度平滑,转换后的语音质量不高。Hsu等[9]提出的变分自编码生成对抗网络(Variational Autoencoding Wasserstein Generative Adversarial Network, VAWGAN)模型通过在C-VAE中引入Wasserstein生成对抗网络(Wasserstein GAN,WGAN)[11],将VAE的解码器指定为WGAN的生成器来优化目标函数,一定程度上提升了语音的质量。但是,上述2种方法都基于优化相同的概率图模型,而隐变量存在的过度正则化问题会直接导致转换语音模糊不清。此外,WGAN在模型训练过程中存在性能不稳定及收敛速度较慢等问题,导致转换后合成语音质量不高,因此,基于VAWGAN的语音转换系统的性能仍有待提升。
针对上述问题,Saito等[12]于2018年提出利用预训练的ASR模型得到音素后验概率(Phonetic Posteriorgrams, PPG) 来增强隐变量表征语义内容的能力,以进一步提高基于C-VAE模型的性能,然而该方法直接依赖于经过大量语料和长时间训练得到的ASR系统的性能,准确率也不稳定。鉴于此,本文提出融合句嵌入(Sentence Embedding, SE)的辅助分类器生成对抗网络(Auxiliary Classifier GAN, ACGAN)语音转换方法。先构建基于变分自编码辅助分类器生成对抗网络(Variational Autoencoding Auxiliary Classifier GAN,VAACGAN) 的语音转换模型,通过引入ACGAN取代基准模型中的WGAN,利用其鉴别器同时鉴别输入频谱特征的真假及所属的说话人类别,有效提升生成频谱的质量。在此基础上,进一步提出通过预训练的文本编码器将说话人语句编码为句嵌入,将其融合到VAACGAN模型中,作为与说话人无关的语义表征直接参与模型训练,能够显著增强隐变量表征语义信息的能力。
1 基于VAWGAN的语音转换基准方法 VAWGAN模型由编码器、生成器和鉴别器3部分构成,图 1为基于VAWGAN模型的频谱转换原理图。给定源说话人和目标说话人的频谱特征帧分别为:Xs={xs, nn=1, 2, …Ns},Xt={xt, nn=1,2, …, Nt},Ns为源说话人的帧总数,Nt为目标说话人的帧总数,st分别表示源和目标说话人身份的索引。在VAWGAN模型中,通过编码器将说话人的频谱特征编码为隐变量zn,认为是独立于说话人的语义信息。在此编码过程中,由于可以不考虑输入频谱特征帧的说话人身份信息,可将输入xs, nxt, n统一表示为xn。在可读性不受影响的前提下,可忽略频谱特征帧索引。在下述过程中,x表示输入频谱特征,y表示说话人身份标签,z表示语义表征隐变量。基于VAWGAN模型的频谱特征转换可以表示为
(1)

图 1 基于VAWGAN模型的频谱转换原理图 Fig. 1 Schematic diagram of spectrum conversion based on VAWGAN model
图选项




式中:表示通过输入的频谱特征x和目标说话人的标签y得到转换语音;f?(·)表示编码器,说话人身份标签y由传统说话人编码向量one-hot表示,以区分不同说话人的身份信息;生成器fθ(·)通过结合隐变量z和说话人身份标签y构成联合特征(z, y),以重构目标说话人的频谱特征帧,再将真实频谱特征x和生成器重构的频谱特征一同输入鉴别器,实现输入频谱真假(real/fake)的鉴别,以生成接近目标说话人的频谱特征。
由上述可知,VAWGAN模型通过在C-VAE模型中引入WGAN,将C-VAE的解码器指定为WGAN的生成器来优化目标函数。因此,该模型完整的目标函数表示为
(2)

式中:L(x; ?, θ)表示C-VAE模块的目标函数;α为调节WGAN损失的系数;JWGAN表示WGAN模块的目标函数,即
(3)

其中:Ex~pt*[·]表示鉴别器鉴别输入为真实频谱特征分布的概率期望;Dψ(x)表示鉴别器对输入真实频谱特征x的鉴别;Gθ(z, y)为生成频谱特征;Ez~q?(z|x)[·]表示鉴别器鉴别输入为生成频谱特征分布的概率期望。
式(2) 中,L(x; ?, θ)表达式为
(4)

式中:DKL(·‖·)表示KL散度(Kullback-Leibler Divergence, KLD);Eq?(z|x)[·]表示解码过程中的重构损失;pθ(z)为隐变量z的先验分布,服从标准多维高斯分布;q?(z|x)表示编码过程;pθ(x|z, y)表示解码过程;?θ分别表示编码器和生成器参数,通常使用随机梯度下降法来更新C-VAE模型中的网络参数。
在式(4)中,KL项先验的影响很大,假定观测数据严格服从标准高斯分布[13],该假设将导致模型学习到的目标函数存在缺陷,获得的隐变量分布较为简单,难以完整代表语义信息的基础结构。
综上分析可知,VAWGAN模型基于解纠缠语义和说话人个性信息的思想,完全解除了对平行训练数据的依赖。此外,通过在解码阶段指定说话人标签,能够实现多对多的语音转换,引入WGAN一定程度上提升了C-VAE模型的性能,但是仍然存在两大问题:①为了使训练更为稳定,基准模型中的WGAN采用权重剪切(Weight Clipping)操作,将权重剪切到一定范围内,但是仍然存在训练困难、收敛较慢等问题[3];②由于VAWGAN与C-VAE模型都基于优化相同的概率图模型,在隐变量中经常观察到过度正则化效应,易导致语义内容趋于消失,转换后的语音模糊不清。基于此,本文将从改进生成对抗网络的性能及增加语义隐变量约束两方面对基准模型提出改进。
2 融合句嵌入的VAACGAN语音转换 本文提出融合句嵌入的变分自编码辅助分类器生成对抗网络(VAACGAN-SE) 语音转换模型,创新点在于:①将ACGAN模型应用到语音转换领域中[3, 13],其鉴别器能够同时鉴别输入频谱包络特征的真假及其所属的说话人类别,以提升语音转换模型生成语音的清晰度和自然度;②从增加语义隐变量约束的角度,通过预训练一个文本编码器,将说话人语句编码为句嵌入,作为语义内容的有效辅助,再将其融入VAACGAN-SE模型的C-VAE模块中参与训练,以增强隐变量表征与说话人无关的语义内容的能力,使得源语音的语义内容在训练和转换阶段都能得到有效保持,有效克服隐变量的过度正则化效应问题,进一步改善模型的性能。
2.1 ACGAN原理 ACGAN是Odena等[14]于2017年提出用于图像合成的一种方法,与传统WGAN不同之处在于:ACGAN的鉴别器中包含能够输出训练数据的类别标签的辅助解码器网络[3, 13]。本文方法采用ACGAN取代基准模型中的WGAN,通过联合训练编码器和生成器,有效区分不同说话人的频谱特征,生成的频谱包络特征更加接近目标说话人,从而提升语音质量,且训练过程更加稳定。
ACGAN原理如图 2所示。ACGAN中,除了输入频谱特征外,每一个生成的频谱特征都具有对应的类别标签cl~pcl,cl利用传统说话人编码one-hot表示,在该方法中表示说话人身份标签y。生成器G使用频谱特征x和说话人类别标签cl来生成样本X′=G(x, cl),鉴别器D的输入为真实频谱特征X和生成样本X′,输出为所属的说话人类别CL及其预测的频谱特征的“真假”S[3]
图 2 ACGAN原理示意图 Fig. 2 Schematic diagram of ACGAN
图选项




ACGAN鉴别器的目标函数由2部分构成,如下:
(5)

(6)

式中:LsLcl分别为正确来源的对数似然和正确类的对数似然;P(S=real|X)表示鉴别器D判定频谱特征为真的概率;P(CL=cl|X)表示鉴别器D判定频谱特征属于说话人标签cl的概率[3, 13]。在模型的训练过程中,鉴别器D的训练目标是最大化Ls+Lcl,同时训练生成器G是最大化Ls-Lcl
2.2 句嵌入的融合与训练 通过增强隐变量表征语义的能力,以进一步提升转换语音的质量是本文在上述研究基础上的深入探索。创新点在于:在C-VAE模块训练过程中融合了句嵌入,其代表与说话人无关的语义内容的隐变量,通过预训练文本编码器(Text-Encoder) 来获得。因此,C-VAE模块的目标函数由第1节中的式(4)更新为
(7)

式中:zp表示句嵌入。解码器网络pθ(x|z, zp, y)中融入了句嵌入参与模型训练,增强了C-VAE模块提取与说话人无关的语义隐变量的能力,使得源语音中的语义信息得到充分的表征和重建。如图 3所示,与图 3(a)传统C-VAE模型不同,图 3(b)为本文融合句嵌入的C-VAE模型原理示意图[13],图中实线表示频谱特征参数x生成隐变量z和句嵌入zp,虚线表示通过联合矢量(z, zp, y)来重构频谱特征参数x
图 3 传统C-VAE模型与本文融合句嵌入的C-VAE模型对比 Fig. 3 Comparison of conventional C-VAE model and proposed model based on C-VAE with sentence embedding
图选项




本文选取VCC2018语料库[15]进行语音转换模型的训练和测试,该语料库是由国际行业内挑战赛提供的标准数据库,其中训练语料包含语句对应的转录,即句子的语义内容。因此,本文方法利用数据库所提供的转录,通过Arora等[16]提出的由词嵌入获得训练语料的准确句嵌入算法。然而在转换阶段,由于任意的测试语料没有转录,需要提供给转换阶段一个预训练好的文本编码器,以生成测试语料对应的句嵌入。

2.2.1 训练语料的句嵌入提取 在训练阶段,通过Arora等[16]提出的句嵌入提取算法,先将训练语料所对应转录中每个单词表示为词嵌入[13],再将句嵌入表示成词嵌入的加权平均值:
(8)

式中:S表示单词所处的句子,其绝对值表示句子中包含的单词数量;vn为单词n对应的词嵌入;zu为获得的句嵌入;a为超参数;p(n)为单词n在整个语料库中出现的概率[3]。将zu形成矩阵的第一个奇异值记为u,通过zu减去在向量u上的投影[13],即可得到编码之后的句嵌入表示:
(9)


2.2.2 文本编码器的训练及转换语料的句嵌入提取 基于VAACGAN-SE模型的频谱转换训练过程如图 4所示,VAACGAN-SE增加了能够生成句嵌入的文本编码器的预训练。
图 4 基于VAACGAN-SE模型的频谱转换的训练过程 Fig. 4 Training process of spectrum conversion based on VAACGAN-SE model
图选项




通过训练文本编码器来构建句嵌入和频谱包络特征之间的映射关系,如图 4所示,将频谱包络特征输入文本编码器中可以获得相应语句的句嵌入。文本编码器具体训练过程如下[13]:首先,将语料库提供的训练语句的转录编码为句嵌入zp;然后,利用{频谱包络特征x,句嵌入zp}对训练文本编码器,经过训练输出预测得到句嵌入zp之间的误差通过L2损失函数度量:
(10)

式中:M为训练语句的数量。文本编码器与其他网络联合训练,迭代优化使文本编码器的损失函数尽可能小,直至实验设置的最大迭代次数。在转换阶段,将转换语料的频谱包络特征输入预训练好的文本编码器,就可以提取句嵌入。
2.3 融合句嵌入的VAACGAN语音转换系统
2.3.1 训练阶段 采用WORLD[17]声码器,从说话人的训练语句中提取3部分特征,包括频谱包络特征x、基频f0及非周期特征(Aperiodicities, APs)[18]。其中,频谱包络特征x输入VAACGAN-SE模型进行训练,具体训练过程如图 4所示,VAACGAN-SE模型的输入是频谱包络特征x,充分训练后得到认为独立于说话人的语义信息z;同时将频谱包络特征x及由训练语料转录生成的准确句嵌入zp作为文本编码器的输入,实现文本编码器的预训练。生成器将获得的隐变量z、句嵌入zp和表示说话人身份的one-hot向量相结合,重构特定说话人的频谱包络特征
VAACGAN-SE模型的目标函数为
(11)

式中:L(x; ?, θ)为C-VAE模块中融合了句嵌入zp的目标函数,具体表达式如式(7)所示;α为ACGAN的损失系数;JACGAN为ACGAN部分损失函数。
ACGAN的生成器中结合了句嵌入zp
(12)

式中:Dψ(·)和Dψcl(·)分别为鉴别器对频谱特征真假和所属类别的判定输出;loss(·)函数表示鉴别器预测的频谱特征类别和真实类别之间的交叉熵损失。
频谱特征类别损失表示如下:
(13)

在ACGAN中,生成器的损失函数为
(14)

式中:β为鉴别器鉴别输入为生成频谱特征分布的概率期望系数;优化目标为
在ACGAN中,鉴别器的损失函数为
(15)

优化目标为
基频取对数后,在源说话人的对数基频lnf0与目标说话人的对数基频lnf0之间建立映射关系[19]
(16)

式中:μμ′和σσ′分别表示源说话人和目标说话人对数基频的均值和均方差。

2.3.2 转换阶段 采用WORLD声码器从测试语料中提取[3, 13]说话人语句的频谱包络特征x、基频及非周期性特征;将x输入训练好的VAACGAN-SE模型中,得到转换的频谱包络特征;通过式(16)表示的映射关系[19]实现源说话人和目标说话人基频的转换;非周期特征保持不变;联合、lnf0和非周期特征通过WORLD声码器得到转换语音。
3 实验与分析 本文实验是在Python平台环境下实现,在Intel(R) Xeon(R) CPU E5-2660 v4 @ 2.00 GHz、NVIDIA Tesla V100 (rev a1)的Linux服务器上运行。采用标准通用数据库VCC2018[15]中提供的非平行语料,共4名源说话人(SF3、SF4、SM3和SM4)和4名目标说话人(TF1、TF2、TM1和TM2),共构成16个源-目标说话人转换对,即16个转换情形[3]。每个说话人包含有81个训练语句,35个测试语句。
在VAACGAN-SE模型中,文本编码器(Text-Encoder)与编码器(Encoder)的结构都是采用二维卷积神经网络,包括5个卷积层和1个全连接层[3, 13],5个卷积层的过滤器大小为7×1,步长为3,过滤器深度设置为16、32、64、128和300,激活函数采用LReLU函数[18]。所述的鉴别器与VAWGAN网络不同,其中多了一层输出语音数据类别标签的网络层。编码器、生成器的网络结构与VAWGAN基准模型保持一致。图 5为本文提出模型的网络结构示意图。图中:hwc分别为高度、宽度和通道数,ks分别为卷积层的内核大小和步长,Conv、Deconv、Fully Connected和Batch norm分别表示卷积、反卷积(转置卷积)、全连接层和批量归一化。频谱包络特征和非周期性特征为513维,隐变量z和句嵌入分别设置为128维和300维[13],实验中训练批次大小为16,学习率为0.000 1,最大迭代次数设置150 000。
图 5 基于VAACGAN-SE模型的网络结构示意图 Fig. 5 Schematic diagram of network structure based on VAACGAN-SE model
图选项




采用通用的客观评价和主观评价对本文提出的VAACGAN-SE模型进行性能评估,并将其与基准模型VAWGAN进行对比。
3.1 客观评价 梅尔倒谱失真距离(Mel-Cepstral Distortion, MCD) 作为业界公认的客观评价标准[3],用来衡量转换语音与目标语音之间的频谱相似度[1-2],MCD的计算公式如下:
(17)

式中:cd分别为目标语音和转换语音的第d维梅尔倒谱系数;D为总维数[3];MCD单位为dB。
图 6为4种模型在16种转换情形下的MCD对比。分析可知,VAWGAN、VAACGAN、VAWGAN-SE和VAACGAN-SE模型在16种转换情形下的平均MCD值分别为5.69、5.35、5.44、5.31 dB,本文提出的VAACGAN、VAWGAN-SE和VAACGAN-SE模型相比较基准模型分别降低了5.98%、4.39%和6.67%,表明ACGAN和句嵌入的引入,转换语音的频谱相似度更好,证实该方法能够有效地提高转换语音的合成音质。
图 6 16种转换情形下4种模型的转换语音MCD对比 Fig. 6 Comparison of MCD of converted speech by four models in 16 kinds of conversion cases
图选项




图 7所示,在源-目标说话人对为SF3-TM1转换情形下,2种模型得到的转换合成语音与源语音和目标语音的语谱图对比。分析可知,VAACGAN-SE模型转换后合成语音的语谱图相比基准模型VAWGAN,具有更完整的基音和谐波信息,以及更清晰的细节,在直观对比中,说明本文模型得到的转换语音与目标说话人的语音更为接近,在保持语义信息和说话人个性信息两方面更为完整。
图 7 源-目标说话人对为SF3-TM1转换情形下基准模型VAWGAN与本文VAACGAN-SE模型转换语音的语谱图对比 Fig. 7 Comparison of spectrogram between baseline VAWGAN and proposed VAACGAN-SE in voice conversion case of SF3-TM1
图选项




3.2 主观评价 采用平均意见得分(Mean Opinion Score, MOS) 和ABX值来分别评测转换语音的语音质量和个性相似度。主观评测人员为20名语音研究工作者,每个转换情形下有35句转换语音,从4种模型各自的16种转换情形下为每个人随机分配一句,并将不同方法对应的语句进行系统置乱。
在MOS测试中,评测人员对测听的转换语音进行质量打分,主要分为5个等级[3]:1分表示非常差,2分表示较差,3分表示可以接受,4分表示良好,5分表示非常好。在实验结果统计中,将16种转换情形根据不同性别划分为四大类:包括相同性别转换,即男到男、女到女2类;不同性别转换男到女、女到男2类。4种模型转换语音的MOS值对比如图 8所示。
图 8 四类转换情形下4种模型转换语音的MOS值对比 Fig. 8 Comparison of MOS of voice conversion by four models under four conversion categories
图选项




从实验结果对比分析可得,VAWGAN、VAACGAN、VAWGAN-SE和VAACGAN-SE的平均MOS值分别为3.36、3.59、3.51和3.64,与基准模型VAWGAN比较,后3种模型的平均MOS值分别提高了6.85%、4.46%和8.33%,表明本文提出的ACGAN和句嵌入的融合能够有效改善合成语音的音质,提高听觉质量。
在ABX测试中,X代表转换语音,评测人员对测评语句进行评测,来判断转换语音X更加接近源说话人语音A还是目标说话人语音B。本文将16种转换情形划分为相同性别转换和不同性别转换,测试结果分别如图 9图 10所示。其中,A(sure) 用来表示确定判断转换语音为源说话人,A(not sure) 表示不完全确定转换语音是源说话人但很像[3, 13],B(sure) 表示确定判断转换语音为目标说话人,B(not sure) 表示不完全确定转换语音是目标说话人但很像。在结果分析中,将B(not sure)和B(sure) 两项的比例之和作为评价转换语音个性相似性的指标。在所有测评中,没有评测人员确定判断转换语音为源说话人,实验结果对比图中A(sure)该项没有比例显示。
图 9 相同性别转换情形下4种模型转换语音的ABX值 Fig. 9 ABX of voice conversion by four models for intra-gender
图选项




图 10 不同性别转换情形下4种模型转换语音的ABX值 Fig. 10 ABX of voice conversion by four models for inter-gender
图选项




在相同性别转换情形对比中,基准模型VAWGAN和本文提出的3种模型VAACGAN、VAWGAN-SE和VAACGAN-SE的ABX值分别为70.2%、83.1%、79.4%和83.5%,相比基准模型,本文提出的改进模型分别提升了18.4%、13.10%和18.9%。异性别转换情形下,4种模型的ABX值的比例分别为84.6%、88.7%、88.7%和89.2%,相比基准模型,本文提出的改进模型分别提升了4.8%、4.8%和5.4%。在不同性别转换情形下,4种模型的说话人个性相似度均不同程度地优于相同性别转换情形,分析认为,这是因为异性别转换情形下,不同性别之间的转换更为明显,人耳对说话人倾向性的测听会更为突出。在相同性别和不同性别2种情形下,平均ABX值分别提升了10.98%、8.59%和11.56%。
综上分析可得,相比基准模型,本文提出的VAACGAN-SE模型平均MCD值降低了6.67%,平均MOS值提高了8.33%,平均ABX值提高了11.56%,充分验证本文提出的ACGAN和融合句嵌入的策略有效改善了转换语音的音质,同时对说话人个性相似度的提升也十分显著。
4 结论 本文提出一种融合句嵌入的VAACGAN多对多语音转换方法,能够高质量地完成非平行文本条件下的多对多语音转换。
1) 利用ACGAN的鉴别器增加对样本分类的能力,实现了对频谱包络特征真假及其所属说话人类别的同时判定,使得生成的频谱包络特征与目标说话人的频谱特征更加接近。
2) 通过预训练文本编码器将说话人语音编码为句嵌入,利用其增加训练过程中的约束,增强隐变量表征语义内容的能力,有效克服了C-VAE模块中隐变量过度正则化效应导致语义内容趋于消失这一问题。
下一步的研究工作将考虑韵律特征尤其是序列到序列的语音转换。

参考文献
[1] GODOY E, ROSEC O, CHONAVEL T. Voice conversion using dynamic frequency warping with amplitude scaling, for parallel or nonparallel corpora[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(4): 1313-1323. DOI:10.1109/TASL.2011.2177820
[2] TODA T, CHEN L H, SAITO D, et al. The voice conversion challenge 2016[C]//Interspeech, 2016: 1632-1636.
[3] 李燕萍, 曹盼, 石杨, 等. 非平行文本下基于变分自编码器和辅助分类器生成对抗网络的语音转换[J]. 复旦学报(自然科学版), 2020, 59(3): 322-329.
LI Y P, CAO P, SHI Y, et al. Voice conversion based on variational autoencoder and auxiliary classifier generative adversarial network in non-parallel corpora[J]. Journal of Fudan University(Natural Science), 2020, 59(3): 322-329. (in Chinese)
[4] DONG M, YANG C, LU Y, et al. Mapping frames with DNN-HMM recognizer for non-parallel voice conversion[C]//2015 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Piscataway: IEEE Press, 2015: 488-494.
[5] ZHANG M, TAO J, TIAN J, et al. Text-independent voice conversion based on state mapped codebook[C]//2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2008: 4605-4608.
[6] NAKASHIKA T, TAKIGUCHI T, MINAMI Y. Non-parallel training in voice conversion using an adaptive restricted Boltzmann machine[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(11): 2032-2045. DOI:10.1109/TASLP.2016.2593263
[7] MOUCHTARIS A, VAN DER SPIEGEL J, MUELLER P. Nonparallel training for voice conversion based on a parameter adaptation approach[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3): 952-963. DOI:10.1109/TSA.2005.857790
[8] HSU C C, HWANG H T, WU Y C, et al. Voice conversion from non-parallel corpora using variational auto-encoder[C]//2016 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference(APSIPA). Piscataway: IEEE Press, 2016: 1-6.
[9] HSU C, HWANG H, WU Y, et al. Voice conversion from unaligned corpora using variational autoencoding Wasserstein generative adversarial networks[C]//Interspeech, 2017: 3364-3368.
[10] ZHANG J, LING Z, DAI L R. Non-parallel sequence-to-sequence voice conversion with disentangled linguistic and speaker representations[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 28(1): 540-552.
[11] ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning (ICML). New York: ACM Press, 2017: 214-223.
[12] SAITO Y, IJIMA Y, NISHIDA K, et al. Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors[C]//2018 IEEE International Conference on Acoustics, Speech and Signal Processing. Piscataway: IEEE Press, 2018: 5274-5278.
[13] 石杨. 非平行文本条件下基于文本编码器, VAE和ACGAN的多对多语音转换研究[D]. 南京: 南京邮电大学, 2019: 34-69.
SHI Y. Non-parallel voice conversion using ACGAN and variational autoencoders conditioned by sentence embedding[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019: 34-69(in Chinese).
[14] ODENA A, OLAH C, SHLENS J. Conditional image synthesis with auxiliary classifier GANs[C]//Proceedings of the 34th International Conference on Machine Learning, 2017: 2642-2651.
[15] LORENZO-TRUEBA J, YAMAGISHI J, TODA T, et al. The voice conversion challenge 2018: Promoting development of parallel and nonparallel methods[C]//The Speaker and Language Recognition Workshop, 2018: 195-202.
[16] ARORA S, LIANG Y Y, MA T Y. A simple but tough-to-beat baseline for sentence embeddings[C]//ICLR, 2017: 1-16.
[17] MORISE M, YOKOMORI F, OZAWA K. WORLD: A vocoder-based high-quality speech synthesis system for real-time applications[J]. IEICE Transactions on Information and Systems, 2016, 99(7): 1877-1884.
[18] MAAS A L, HANNUN A Y, NG A Y. Rectifier nonlinearities improve neural network acoustic models[J]. Computer Science, 2013, 30(1): 1152-1160.
[19] 左宇涛. 非平行文本条件下基于i-vector, VAE和GAN的多对多语音转换算法研究[D]. 南京: 南京邮电大学, 2019: 35-64.
ZUO Y T. Research on many-to-many voice conversion based on i-vector, variational auto-encoder and generative adversarial networks for non-parallel corpora[D]. Nanjing: Nanjing University of Posts and Telecommunications, 2019: 35-64(in Chinese).


相关话题/网络 信息 质量 概率 过程

  • 领限时大额优惠券,享本站正版考研考试资料!
    大额优惠券
    优惠券领取后72小时内有效,10万种最新考研考试考证类电子打印资料任你选。涵盖全国500余所院校考研专业课、200多种职业资格考试、1100多种经典教材,产品类型包含电子书、题库、全套资料以及视频,无论您是考研复习、考证刷题,还是考前冲刺等,不同类型的产品可满足您学习上的不同需求。 ...
    本站小编 Free壹佰分学习网 2022-09-19
  • 结合颅骨形态特征与神经网络的民族判别*
    中国是一个多民族国家,不同的民族具有独特民族文化和风俗,由于生存环境、遗传等因素使得各民族相貌特征也存在一定的差异。颅骨是法医人类学、考古学、面貌复原等领域的重要研究对象,由于颅骨本身骨质坚硬、不易受损的特性,可以更好地保存特征,从而通过颅骨识别性别、种族或者民族逐渐成为当前研究热点。在法医人类学领 ...
    本站小编 Free考研考试 2021-12-25
  • 融合语义信息的视频摘要生成*
    随着视频拍摄、存储技术和网络传输的飞速发展,互联网上的视频数据呈爆炸性增长[1]。但由于生活节奏越来越快,观众在没有确定视频是否符合他们的期望前,不会轻易花太多时间观看完整视频,观众更期望可以通过视频预告等形式对视频内容产生大致的了解。视频摘要任务从原始视频中提取具有代表性和多样性的简短摘要,使观看 ...
    本站小编 Free考研考试 2021-12-25
  • 基于信息素启发狼群算法的UAV集群火力分配*
    随着无人机(UnmannedAerialVehicle,UAV)技术和人工智能的快速发展,利用大量具有自主作战能力且成本低廉的UAV组成UAV集群突破对手防御体系,对目标实施饱和打击以及对入侵机群进行空中拦截是UAV集群作战的重要手段[1-2]。美军已经开展了多项关于UAV集群研究及试验验证,并将U ...
    本站小编 Free考研考试 2021-12-25
  • 带空间结构的人工神经网络建模方法*
    空间自回归模型自20世纪70年代由Anselin和Cliff等提出并推广以来[1-2],日益受到重视。通过引入空间权重矩阵将空间效应引入传统回归模型,空间自回归模型能够更加全面地分析各种变量之间的变化规律,增强模型的解释能力[3]。目前,空间自回归模型已广泛应用于环境问题[4]、区域经济增长[5]等 ...
    本站小编 Free考研考试 2021-12-25
  • 空地量子密钥分发网络中数据协调方案*
    量子密钥分发(QuantumKeyDistribution,QKD)技术是量子通信中发展比较成熟的一个分支,目前研究人员已经在一些地区设计实验了一些节点数量有限的小型化QKD网络,其中基于量子卫星的QKD网络可以极大地增加通信距离。虽然量子卫星克服了远距离光子损耗的问题,但是通信的实时全方位覆盖和多 ...
    本站小编 Free考研考试 2021-12-25
  • 基于级联注意力机制的孪生网络视觉跟踪算法*
    视觉跟踪是计算机视觉领域的难点问题之一,是实现更高级视觉理解与场景分析的基础[1]。视觉跟踪技术广泛应用在视频监控、人机交互、机器人、视频编辑和无人驾驶等领域。在仅给定初始帧目标位置和大小信息的条件下,视觉跟踪任务需要实现对后续帧中运动目标持续且稳定的跟踪。由于目标在运动过程中存在着尺度变化、旋转、 ...
    本站小编 Free考研考试 2021-12-25
  • 基于改进GERT的任务过程时间特性建模分析方法*
    伴随着日渐密集的任务需求,任务间隔紧密程度越来越高,系统中各项活动间的交互耦合关系愈加突出,使得用户对系统的时间特性提出了更为严苛的要求[1]。包括飞机在内的复杂工业系统在执行任务过程中,各项活动的衔接耦合密切,执行时间紧凑,顺序要求严格,某一活动的参数发生波动,会引起与其共享同一资源的其他活动的执 ...
    本站小编 Free考研考试 2021-12-25
  • 模拟月壤铺粉过程DEM数值仿真*
    21世纪伊始,人类迎来了新一轮的探月高潮。美国国家航空航天局(NASA)提出了“重返月球,建立月球永久性基地”计划;欧洲航天局(ESA)制定了“极光”计划,其主要任务是载人登月、建立月球基地,并以月球为跳板实施载人火星探测任务。如何实现高效率、低成本的“空间制造”已经成为解决长期月面居留物资和生命保 ...
    本站小编 Free考研考试 2021-12-25
  • 基于ADRC和RBF神经网络的MSCSG控制系统设计*
    磁悬浮控制敏感陀螺(MSCSG)是航天器进行姿态控制的一种新型惯性器件[1],与现有的单一功能的磁悬浮控制力矩陀螺[2-3]或磁悬浮速率陀螺不同,MSCSG具有同时控制与同时敏感的突出优势,且具有高精度的巨大潜力,但是要实现MSCSG的高精度控制面临着如下困难与挑战。影响MSCSG实现高精度、高带宽 ...
    本站小编 Free考研考试 2021-12-25
  • 基于道路特征信息的车道结构化解析*
    目前,道路执法的视觉监控系统中,从静态摄像头中抽取语义信息的自动化程度较高[1-6],能自动识别并记录违规违法行为;但是架设在执法车上的动态摄像头,其信息处理和自动化程度较低,无法自动识别违规违法行为,甚至无法准确解析道路结构。解析道路结构是自动化动态执法的基础和关键。尤其在高速道路上,识别出快车道 ...
    本站小编 Free考研考试 2021-12-25