基于高分辨率网络的单声道歌声分离*

删除或更新信息，请邮件至freekaoyan#163.com(#换成@)

本站小编 Free考研考试/2021-12-25

单声道歌声分离是指从单声道歌曲中分离出伴奏和歌声, 是乐器识别、旋律提取、歌词识别、音高估计等课题的基础^[1], 作为音乐信息检索领域的一个重要研究课题, 近年来得到广泛关注。
目前, 深度学习在计算机视觉领域取得很大进展, 歌声分离算法也逐步利用深度学习技术分离伴奏和歌声, 并展现出比矩阵分解、音高估计等方法更好的分离效果。由于深度学习在图像上的良好表现, 以及可以方便地把歌曲用二维时频图像表示, 现有算法集中在频域上建模^[2-7], 大体思路是:将单声道歌曲的时频谱图作为网络输入, 多次迭代学习, 不断减小预测的伴奏和歌声时频谱图与真实时频谱图之间的差距, 得到训练好的网络。测试阶段, 给定单声道歌曲时频谱图, 网络输出预测的伴奏和歌声掩码, 结合歌曲的时频谱图, 恢复出伴奏和歌声时频谱图。由此可见, 分离信号质量的高低取决于预测掩码的精准度。
不同文献先后提出使用卷积神经网络(CNN)、循环神经网络(RNN)、前馈神经网络(FNN)和双向长短时记忆网络(LSTM)来进行歌声分离。由于这些经典网络结构简单, 只取得了有限的分离效果。最近有算法提出将目前视觉领域主流的模型应用到歌声分离, 如U型网络U-Net、沙漏网络Hourglass, 通过多次上下采样和卷积操作学习多层次抽象特征, 提高分离质量。但因网络结构串行, 下采样存在信息丢失, 上采样造成高分辨率表征不精确, 难以得到高分辨率、高精度的表征作为预测的掩码。
最近提出的高分辨率网络^[8-9]具有以下特征:①多个不同分辨率表征的子网络并行, 确保网络中每一阶段的特征都能满足高分辨率; ②特征不断交互与融合, 使得信息被完整传递和充分利用, 学习多层次、丰富抽象的特征。高分辨率网络确保输出高分辨率表征的精准度, 在图片全局变化显著处及局部细节上同时有较高的精度。
因分离信号质量的高低取决于预测掩码的精准度, 考虑到预测的时频谱图需要保持高分辨率、高精度, 本文提出:①将视觉领域先进的高分辨率网络应用到单声道歌声分离; ②设计并构建适合单声道歌声分离的高分辨率网络; ③在产生掩码时, 充分利用所有分辨率表征信息, 并平均化每一分辨率表征的作用。根据掩码恢复出时频谱图。
因人耳对相位信息不敏感, 以及对复数频谱建模的困难, 故使用原歌曲相位谱表示歌声和伴奏相位谱。结合预测的伴奏和歌声时频谱图, 与原歌曲相位谱进行重构, 得到伴奏和歌声的时域信号。
1 相关工作单声道歌声分离因其应用价值, 且是多个课题的研究基础, 成为近年来研究的重点。先后出现矩阵分解^[10-11]、音高推理^[12-13]及基于多反复结构模型^[14]等算法。矩阵分解因其可扩展性和灵活性, 许多算法从音频先验知识和约束条件等方面着手, 进行改进^[15-17]。由于仅有单声道歌曲信息, 分离难度大, 以上算法只能粗略分离出歌声和伴奏, 分离质量有待进一步提高。
随着深度学习技术不断发展, 现有算法开始尝试使用神经网络来提取歌声和伴奏。Simpson等^[2]提出使用CNN预测伴奏和歌声的掩码(由[0~1]构成尺寸和时频谱图一致的矩阵), 将伴奏和歌声各自的掩码矩阵分别与歌曲时频谱图作点乘运算(矩阵的对应位相乘), 得到伴奏和歌声的时频谱图。因为音频是与时间序列相关的数据, Huang等^[3]提出使用RNN来学习时间上的变化, 并加入时频掩蔽函数优化预测的伴奏和歌声。Uhlich等^[4]将FNN与双向LSTM模型结合, 并引入数据扩充, 提升分离效果。以上神经网络模型都是常见的模型, 实践证明它们的分离效果有限。
目前, 有算法提出使用结构层次丰富的图像分割网络模型来进行歌声分离。Jansson等^[5]提出将U-Net模型应用到歌声分离领域, 将歌曲时频谱图看作图像输入网络, 先经过多个下采样块不断降低分辨率, 再经过多个上采样块连续提高分辨率, 得到与输入相同分辨率的输出表征, 作为歌声掩码。因网络结构像U型被称为U-Net。Park等^[6]提出使用堆叠沙漏网络(Stacked Hourglass Network)进行歌声分离和乐器分离, 取得了良好的分离效果。Stoller等^[7]直接在时域上采用U-Net建模, 避免了频域模型中忽略对相位建模的问题。以上算法采用U-Net、Hourglass等模型, 都通过一定数量的高-低分辨率模块和低-高分辨率模块, 在高中低分辨率之间学习丰富抽象特征。共同的问题是:网络结构是串行的, 从高分辨率逐步下采样到低分辨率, 会造成部分信息丢失; 从低分辨率逐步上采样到高分辨率, 仅通过上采样操作, 从低分辨率特征图中恢复出的高分辨率特征图不够精准, 存在误差。
高分辨率网络具有以下特点:多个子网络并行, 确保网络中每一阶段的特征都是高精度的, 相比仅通过上采样得到高分辨率特征, 可提高可靠性和准确度; 特征融合交互持续进行, 使得信息被完整传递和充分利用, 学习到丰富抽象的特征, 避免信息丢失。高分辨率网络弥补了以上问题, 能保持高分辨率、高准确性的输出, 在计算机视觉领域中的人体姿态估计、图像分割、目标检测等方面取得全面优势。
在频域上进行歌声分离, 研究重点是保证分离的伴奏和歌声时频谱图与真实时频谱图误差较小, 需要达到时频谱图上像素级别的准确, 这要求网络预测的伴奏和歌声掩码保持高分辨率、高精度。单个串行网络在分辨率上存在损失, 且丢失部分特征信息, 预测结果精度低。因此, 本文提出使用高分辨率网络进行单声道歌声分离, 将混合歌曲的时频谱图作为输入, 构建高分辨率网络, 预测歌声和伴奏的掩码, 再恢复出时频谱图, 结合歌曲相位谱恢复出歌声和伴奏信号。
2 单声道歌声分离算法本文提出的基于高分辨率网络的单声道歌声分离模型, 将单声道歌曲的时频谱图(不含相位)看作图像, 作为歌曲的初始特征, 输入网络, 经过高分辨率网络的多个并行子网络, 得到多个不同分辨率的表征(表征是神经网络自动学习提取到的特征表示)。再进行多种分辨率表征的融合, 生成新的多分辨率表征, 这一过程进行多次, 生成网络预测的伴奏和歌声掩码。根据掩码和原歌曲时频谱图, 恢复出伴奏和歌声的时频谱图。最后结合分离信号的时频谱图和原歌曲相位谱, 重构得到伴奏和歌声的时域信号。
2.1 高分辨率网络结构高分辨率网络由文献[8]提出, 本文加以改进, 应用到单声道歌声分离。结构如图 1所示, 分为输入阶段、多分辨率融合阶段、输出阶段。输入阶段把歌曲的时频谱图看作图像, 作为网络的输入, 经过2次卷积操作扩大通道数, 得到新表征。将输入大小为512×64×C的表征, 看作高分辨率表征, 其中, 512代表高度, 64代表宽度, C代表深度, 也称通道数, 本文C=48。多分辨率融合阶段进行4次融合, 每次融合之前是多个并行子网络的表征提取, 由多个不同分辨率的子网络组成, 融合时把提取到的所有表征组合到一起, 生成新的多分辨率表征。输出阶段综合经过多次融合后的多分辨率表征, 得到分离结果。其关键是多分辨率融合阶段的并行子网络的组成和多分辨率表征的融合过程。

图 1 基于高分辨率网络的单声道歌声分离 Fig. 1 Monaural singing voice separation based on high-resolution network

图选项

2.1.1 并行子网络并行子网络在保持前一层分辨率网络的同时, 在当前分辨率上通过下采样形成新分支, 该分支分辨率是当前分辨率的1/2。网络通过上述方式不断扩大, 逐步形成不同分辨率表征并行存在的网络。相比串行网络, 并行网络能同时拥有多种分辨率表征的子网络, 为特征融合做准备。图 1描述了4种不同分辨率表征的并行子网络, 形成一个网络整体的情形。

2.1.2 多分辨率表征融合多分辨率表征融合是多分辨率网络的关键, 是指把多种分辨率的表征作为输入, 经过融合, 产生不同分辨率的输出表征。融合能使不同分辨率的表征以卷积全连接的方式组合, 生成丰富抽象的新表征。在此过程中, 充分利用所有分辨率的表征, 从而保证信息传递的完整性, 提高网络预测的准确性。
图 2表示了3种不同分辨率的输入表征和输出表征。3种分辨率的输入表征以卷积全连接的方式融合, 分别生成3种不同分辨率的输出表征, 达到信息交互和传递, 生成新语义的效果。具体融合方式如下:假设有I个输入表征{P₁, P₂, …, P_I}, I个输出表征{Q₁, Q₂, …, Q_I}, 每个输出表征融合了所有分辨率的输入表征, 即Q_k=

。函数a(P_i, k)表示将分辨率为i的表征P_i映射成分辨率为k的表征, 映射方式为上采样、下采样或恒等映射。

图 2 多分辨率表征融合 Fig. 2 Multi-resolution representation fusion

图选项

下采样过程, 采用步长为2的3×3卷积, 将表征分辨率下降为原有分辨率的1/2。上采样过程, 先采用1×1卷积降低通道数, 再通过最近邻插值方法, 提高分辨率。恒等映射适用于融合前后表征分辨率一致的情况。

2.1.3 多分辨率块多分辨率块(见图 3)由多分辨率分组卷积(见图 3(a))和多分辨率表征融合(见图 3(b))构成。

图 3 多分辨率块 Fig. 3 Multi-resolution block

图选项

分组卷积是指将一个表征按通道数分成多个子集, 对每个子集分别进行卷积。多分辨率分组卷积是对每种分辨率表征分别进行分组卷积。分组卷积的优势在于减少训练参数, 不易过拟合。
多分辨率表征融合参考2.1.2节, 是指将多分辨率表征作为输入, 通过卷积全连接的方式进行信息交换与融合, 输出多个不同分辨率的表征。由于采用卷积全连接的方式, 所以输出的每个分辨率表征都包含了前一层所有分辨率的表征信息, 使得信息在交互过程中被完整传递。
2.2 算法实现
2.2.1 准备工作本文在频域上建模, 网络输入歌曲时频谱图, 分离得到伴奏和歌声的时频谱图。时频谱图是由频率轴和时间轴构成的二维时频图像, 频带数固定为512。因每首歌曲时长不同, 导致时频谱图的时间轴长度不确定, 为统一网络输入的尺寸, 本文采用与文献[6]相同的方式, 将时频谱图按照时间轴切片, 固定网络输入尺寸为512×64。高度512和宽度64分别表示频带数和时间帧数量。
打乱训练集歌曲的顺序, 每次从选定歌曲的随机时间点处选择固定尺寸的片段。将该片段对应的纯净伴奏、纯净歌声、混合歌曲, 分别作短时傅里叶变换(STFT), 得到各自的时频谱图。混合歌曲的时频谱图用作网络输入, 纯净伴奏、纯净歌声的时频谱图用于损失函数中衡量预测的伴奏、歌声时频谱图与纯净时频谱图的差距。

2.2.2 训练阶段歌声分离训练阶段总体框架如图 1所示。网络输入维度为512×64×1, 1代表单声道歌曲, 网络输出维度为512×64×2, 2代表分离成伴奏和歌声2个信号源, 输出表示预测的伴奏和歌声的时频掩码(数值属于[0, 1]之间, 尺寸为512×64的矩阵)。将伴奏和歌声各自的掩码, 与歌曲的时频谱图作点乘运算, 可得预测的伴奏和歌声时频谱图。
高分辨率网络总共分成4个阶段, 网络结构参考文献[8]改动, 在进入后一阶段前, 增加一个更低分辨率的分支, 并与原有的多个不同分辨率子网络并行前进。随着新增子网络的表征分辨率逐步减半, 同时该表征通道数(深度)逐步增加一倍。4种分辨率的表征(由大到小)对应的通道数依次为C、2C、4C、8C。本文C=48。
将固定尺寸的歌曲时频谱图输入网络, 首先进行2个3×3卷积, 上升通道数到C, 保持原有分辨率不变。第一阶段经过4个残差单元, 每经过一个残差单元, 得到一个新的表征。每个残差单元(Residual Unit)由一个通道数为64的瓶颈模块(Bottleneck)和一个3×3卷积构成, 使用瓶颈模块达到降低参数数目、节省时间的目的, 再通过3×3卷积减少特征的通道数为C。残差单元主要思想是快捷连接和恒等映射, 详见文献[18]。然后通过多分辨率表征融合(见2.1.2节)的方式生成新表征, 并对已有分辨率的表征下采样, 增加一个低分辨率表征的分支。
第二、三、四阶段分别包含一个多分辨率块(见2.1.3节), 一个多分辨率块包含多分辨率分组卷积和多分辨率表征融合。多分辨率分组卷积中, 卷积用残差单元代替, 每个分支(同一分辨率的子网络)包含4个残差单元。前一个表征经过一个残差单元, 会得到一个新的表征。将每种分辨率表征连续经过4个残差单元, 故每种分辨率都生成4个新表征。再经过多分辨率表征融合, 并增加新分支, 生成多个不同分辨率的表征。
最后一个阶段输出4个不同分辨率的表征, 为充分利用所有分辨率的表征, 并平均化每一表征的作用, 本文将3个分辨率较小的表征, 通过双线性插值上采样到最高分辨率; 并将每个表征都通过2个3×3卷积降低通道数到C; 然后在通道数维度上, 叠加生成的4个高分辨率表征, 形成512×64×4C的表征。最后经过2个3×3的卷积, 逐步降低通道数, 得到512×64×2的表征, 即伴奏和歌声的掩码矩阵。根据歌曲时频谱图和预测的掩码, 得到预测的伴奏和歌声时频谱图, 通过衡量预测的时频谱图和真实时频谱图之间的差距, 不断优化调节参数, 得到训练后的网络。
损失函数使用L₁范数损失函数, 记为L, 用于衡量预测的伴奏和歌声时频谱图与纯净伴奏和歌声的差距。

(1)

式中:X表示歌曲时频谱图;

分别为预测的伴奏和歌声的掩码矩阵; Y₁和Y₂分别为纯净的伴奏和歌声时频谱图。点乘运算⊙后得到预测的伴奏和歌声时频谱图, 损失函数L衡量了预测的时频谱图幅值和真实时频谱图幅值之差的绝对值。

2.2.3 测试阶段测试阶段总体流程如图 4所示, 共分为以下6个步骤:

图 4 测试阶段总体框架 Fig. 4 Overall framework of test phase

图选项

步骤1??将一首单声道歌曲, 通过STFT, 从时域变换到频域, 得到歌曲时频谱图和相位谱。
步骤2??将歌曲时频谱图切片, 得到多个固定尺寸为512×64×1的歌曲子时频谱图。
步骤3??将歌曲子时频谱图输入网络, 网络分离得到预测的歌声和伴奏子时频谱图。
步骤4??重复步骤3, 依次将所有歌曲子时频谱图输入网络, 得到预测的结果。
步骤5??按顺序整合所有伴奏和歌声的子时频谱图, 得到预测的完整伴奏和歌声的时频谱图。
步骤6??将预测的伴奏和歌声时频谱图, 分别与原歌曲相位谱结合, 通过短时傅里叶逆变换(ISTFT), 重构得到伴奏和歌声的时域信号。
3 实验分析与验证 3.1 实验评价指标为验证本文算法的有效性, 歌声分离把信噪比SNR、信源干扰比SIR、信源伪差比SAR三个指标作为客观评价标准, 评价分离质量的高低。
本文着重于分离信号时频谱图精度的提升, 为充分体现各算法在幅值预测上的优劣, 且考虑到主客观评价的一致性, 从频谱幅值的角度, 定义信噪比SNR, 直观比较各算法的分离性能。

(2)

式中:

分别为纯净信号、预测信号的时频谱图矩阵; m和n分别为时频谱图中频率轴和时间轴的尺寸大小; Y(i, j)和

分别为纯净信号和预测信号在(i, j)时频单元内的幅度值。SNR指标从频谱幅值角度上评估算法的分离性能, SNR值越高, 表示分离性能越好。
SNR指标用来评估一首歌曲的分离质量, 为从整体上评估测试集所有音频片段的分离质量, 定义GSNR指标, 计算公式如下:

(3)

式中:SNR_k表示第k首歌曲的信噪比; w_k为第k首歌曲的时长, 代表时间权重。
从分离信号中的干扰成分、系统误差等多方面考虑, 本文计算信源干扰比SIR、信源伪差比SAR指标, 进一步比较算法的分离性能。
分离后任一预测信号

, 可根据式(4)分解为以下4部分:

(4)

式中:s_target表示

中与纯净声源s相关的部分; e_interf表示其他声源的干扰成分; e_noise表示扰动噪声; e_artif表示系统误差。
一般不考虑扰动噪声, 对其他3个部分, 定义SIR、SAR两个评测指标。

(5)

(6)

信源干扰比SIR评估目标信号中其他声源的干扰程度。信源伪差比SAR评估系统误差。SIR、SAR值越大, 代表分离效果越好。GSIR、GSAR分别表示对SIR、SAR加入时间权重后的指标, 计算方式同GSNR, 不再详述。
3.2 实验环境与设计实验环境:Python3.7, PyTorch, 处理器为Intel(R) Xeon(R) Bronze 3104 CPU @ 1.70 GHz的服务器, 内存为64.0 GB。
采用公开数据集MIR-1K(https://sites.google.com/site/unvoicedsoundseparation/mir-1k), 其中包含1 000首采样率为16 kHz、时长不等的歌曲。选取男声abjones和女声amy共175首歌曲作为训练集, 其余825首歌曲作为测试集。将1 000首歌曲以伴奏和歌声相同强度的比例混合, 得到采样率为16 kHz的1 000首单声道歌曲。
实验设置采样率为8 kHz, 帧长为1 024, 帧移为256, 学习率为0.001。将训练集歌曲作为网络输入, 其对应的纯净歌声、纯净伴奏用于损失函数中, 衡量预测结果和真实纯净值的差距, 不断迭代, 训练得到用于歌声分离的高分辨率网络。在测试集数据上使用高分辨率网络进行歌声分离。
为验证本文算法的有效性, 将本文基于HR-Net方法与文献[5-6]两个目前有代表性的先进分离算法进行比较。文献[5]提出在频域上使用U-Net模型实现歌声分离, 文献[6]提出使用堆叠沙漏网络SH-4stack分离出歌声和伴奏。本文采用HR-Net网络, 简记为HR-Net。
为公正地比较分离性能, 保证采取相同的混合方式获取单声道歌曲, 在相同的实验配置和数据集的前提下, 进行对比实验。采用SNR、SIR、SAR等指标, 客观评价3种算法的分离性能, 比较频谱幅值预测精度、目标声源中来自其他声源的干扰及系统误差等方面的优劣, 检验本文算法的优越性。
3.3 结果分析
3.3.1 分离的时频谱图可视化本文算法和文献[5-6]是从频域上进行歌声分离。从频域分离方法考虑, 可将本文算法和文献[5-6]分离的伴奏和歌声时频谱图进行可视化对比。
在测试集中, 随机抽取一首歌曲yifen_5_02.wav, 采用本文算法和文献[5-6]提出的算法, 分别对歌曲时频谱图进行分离, 比较分离得到伴奏和歌声的时频谱图。图 5展示了不同算法分离得到的伴奏和歌声的时频谱图, 以及纯净的伴奏和歌声时频谱图。

图 5 不同算法预测的时频谱图及纯净时频谱图 Fig. 5 Spectrograms predicted by different algorithms and real spectrograms

图选项

从分离的伴奏看, 比较黄框内的伴奏, 可以看出, 本文采用HR-Net分离的伴奏时频谱图最接近纯净伴奏, SH-4stack、U-Net算法分离不彻底, 伴奏时频谱图中夹杂了歌声部分。
从分离的歌声看, 比较黄框内的歌声, 相比U-Net、SH-4stack算法, 本文采用HR-Net分离的歌歌声时频谱图能更好地保留局部细节上的特征, 与纯净歌声时频谱图差距小, 分离较为准确, 能得到较为纯净的歌声时频谱图。

3.3.2 分离性能比较表 1和表 2从整体上通过GSNR、GSIR、GSAR三个指标, 评估MIR-1K测试集825首歌曲的分离质量。可以看出, 本文算法伴奏和歌声GSNR、GSIR、GSAR都取得最高值。GSNR高说明总体上本文算法预测的伴奏和歌声时频谱图比其他算法更加精确, 分离效果好。GSIR高说明本文算法分离的目标声源中含有其他声源的干扰更少, 分离得更彻底, 目标声源更纯净。GSAR值高说明本文算法带来的系统误差较小。
表 1 伴奏分离质量总体评估 Table 1 Overall evaluation of accompaniment separation quality?dB

算法	GSNR	GSIR	GSAR
U-Net^[5]	10.09	11.96	11.30
SH-4stack^[6]	12.61	14.19	12.25
HR-Net(本文)	15.28	14.55	12.82

表选项

表 2 歌声分离质量总体评估 Table 2 Overall evaluation of singing voice separation quality?dB

算法	GSNR	GSIR	GSAR
U-Net^[5]	9.28	13.38	11.19
SH-4stack^[6]	12.09	15.38	12.47
HR-Net(本文)	14.76	16.60	13.02

表选项

图 6所示箱型图描述了U-Net^[5]、SH-4stack^[6]算法和本文HR-Net算法在测试集825首歌曲上, SNR、SIR、SAR指标的取值范围。图中:标注的数值表示中位数。

图 6 不同歌声分离算法性能评估 Fig. 6 Performance evaluation of different singing voice separation algorithms

图选项

可以看出, 本文高分辨率网络HR-Net分离的伴奏和歌声SNR中位数分别为13.77 dB、13.04 dB, 高于其他算法。比较箱型图整体结构, 发现在测试集上, HR-Net算法的伴奏和歌声SNR箱型图相对于其他算法整体上移, 仅下限值稍低于SH-4stack算法, 说明本文算法能保证对测试集上的音频, 都预测得到高准确性的时频谱图, 有极个别音频稍低于SH-4stack算法。
HR-Net算法的伴奏SIR中位数为14.96 dB, 高于其他算法, 说明本文算法在减少目标声源中其他声源的干扰方面表现良好。本文歌声SIR取值范围整体明显优于其他算法, 说明本文算法可以得到更纯净的歌声信号, 分离更彻底。
HR-Net算法的伴奏和歌声SAR中位数分别为12.89 dB、13.07 dB, 且整体取值范围高于其他算法。说明相比其他算法, 本文引入系统误差更小。
结合3.3.1节和3.3.2节发现, 本文算法伴奏质量提升的幅度不如歌声的效果明显, 这是因为伴奏时频谱图内容通常丰富、占比多, 而歌声时频谱图内容较稀疏单一、占比少。对于结构复杂的图片从低分辨率提升到高分辨率, 变化不显著; 而高分辨率精度的提升在结构简单、内容少的图片上体现较为明显, 导致伴奏质量提升幅度小, 歌声质量提高的多。
综上, 高分辨率网络由于其多个子网络并行及多分辨率表征融合, 确保每个阶段都有高分辨率表征且信息得到完整传递和交互, 从而分离得到高精度、全面的时频谱图。通过比较SNR、SIR、SAR指标, 证明本文基于高分辨率网络的单声道歌声分离算法能得到高质量、纯净的伴奏和歌声信号。
4 结论 1) 本文算法通过提高预测的伴奏和歌声时频谱图精度, 进而提高分离性能。实验中, 在MIR-1K测试集上, 对比各算法分离的时频谱图和信噪比, 证实高分辨率网络能预测得到高精度的伴奏和歌声时频谱图。
2) 本文算法能分离得到高质量、高纯净度的伴奏和歌声信号。实验中, 本文算法信源干扰比和信源伪差比均高于其他算法, 说明本文算法引入的系统误差小, 分离得更彻底, 信号纯净度高。
目前在分离框架的重构阶段, 由于人耳对相位不敏感, 采用原歌曲相位近似表示伴奏和歌声相位, 造成分离信号缺失准确的相位信息。后续将针对频域模型忽视相位建模的问题进行研究。

参考文献

[1]	李伟, 李子晋, 高永伟. 理解数字音乐——音乐信息检索技术综述[J]. 复旦学报(自然科学版), 2018, 57(3): 5-47. LI W, LI Z J, GAO Y W. Understanding digital music-A review of music information retrieval technology[J]. Journal of Fudan University(Natural Science), 2018, 57(3): 5-47. (in Chinese)

[2]	SIMPSON A J R, ROMA G, PLUMBLEY M D.Deep karaoke: Extracting vocals from musical mixtures using a convolutional deep neural network[C]//International Conference on Latent Variable Analysis and Signal Separation.Berlin: Springer, 2015: 429-436.

[3]	HUANG P S, KIM M, HASEGAWA-JOHNSON M, et al. Joint optimization of masks and deep recurrent neural networks for monaural source separation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(12): 2136-2147. DOI:10.1109/TASLP.2015.2468583

[4]	UHLICH S, PORCH M, GIRON F, et al.Improving music source separation based on deep neural networks through data augmentation and network blending[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP).Piscataway: IEEE Press, 2017: 261-265.

[5]	JANSSON A, HUMPHREY E, MONTECCHIO N, et al.Singing voice separation with deep U-Net convolutional networks[C]//18th International Society for Music Information Retrieval Conference(ISMIR), 2017: 745-751.

[6]	PARK S, KIM T, LEE K, et al.Music source separation using stacked hourglass networks[C]//19th International Society for Music Information Retrieval Conference(ISMIR), 2018: 289-296.

[7]	STOLLER D, EWERT S, DIXON S.Wave-U-Net: A multi-scale neural network for end-to-end audio source separation[C]//19th International Society for Music Information Retrieval Conference(ISMIR), 2018: 334-340.

[8]	SUN K, XIAO B, LIU D, et al.Deep high-resolution representation learning for human pose estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2019: 5693-5703.

[9]	SUN K, ZHAO Y, JIANG B R, et al.High-resolution representations for labeling pixels and regions[EB/OL].(2019-04-09)[2019-09-01].https://arxiv.org/abs/1904.04514.

[10]	VIRTANEN T. Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(3): 1066-1074. DOI:10.1109/TASL.2006.885253

[11]	HUANG P S, CHEN S D, SMARAGDIS P, et al.Singing-voice separation from monaural recordings using robust principal component analysis[C]//2012 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP).Piscataway: IEEE Press, 2012: 57-60.

[12]	HSU C L, WANG D L, JANG J S R, et al. A tandem algorithm for singing pitch extraction and voice separation from music accompaniment[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(5): 1482-1491. DOI:10.1109/TASL.2011.2182510

[13]	IKEMIYA Y, ITOYAMA K, YOSHⅡ K. Singing voice separation and vocal F0 estimation based on mutual combination of robust principal component analysis and subharmonic summation[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(11): 2084-2095. DOI:10.1109/TASLP.2016.2577879

[14]	RAFⅡ Z, PARDO B.Music/voice separation using the similarity matrix[C]//13th International Society for Music Information Retrieval Conference(ISMIR), 2012: 583-588.

[15]	ZHU B L, LI W, LI R J, et al. Multi-stage non-negative matrix factorization for monaural singing voice separation[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(10): 2096-2107. DOI:10.1109/TASL.2013.2266773

[16]	ZHANG X, LI W, ZHU B L.Latent time-frequency component analysis: A novel pitch-based approach for singing voice separation[C]//2015 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP).Piscataway: IEEE Press, 2015: 131-135.

[17]	DEIF H, WANG W, GAN L, et al.Local discontinuity based approach for monaural singing voice separation from accompanying music with multi-stage non-negative matrix factorization[C]//2015 IEEE Global Conference on Signal and Information Processing(GlobalSIP).Piscataway: IEEE Press, 2015: 93-97.

[18]	HE K M, ZHANG X Y, REN S Q, et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway: IEEE Press, 2016: 770-778.