笔记地址:https://flowus.cn/share/a16a61b3-fcd0-4e0e-be5a-22ba641c6792
【FlowUs 息流】Bigvgan
论文地址:
BigVGAN: A Universal Neural Vocoder with Large-Scale Training
背景:
BigVGAN介绍:
技术创新:
规模扩展:
性能成就:
背景与现有方法:
现有挑战:
实际应用的需求:
模型扩展趋势:
BigVGAN的贡献:
Bigvgan是基于GAN提出的,这部分内容介绍了与bigvgan有关的一些工作,主要围绕着GAN展开。
图像合成中的GAN:
音频合成中的GAN:
本工作的重点:
不同生成器架构的比较:
通用神经声码器的成功有限:
介绍了GAN声码器的基础知识并进一步介绍了Bigvgan
介绍了GAN语音合成技术的基础知识,这里进行一个提炼总结
生成器(Generator)
功能:将梅尔频谱图或其他音频特征转换成原始波形。
历史架构:
本研究选择:选择HiFi-GAN生成器作为基准架构,理由是其高效且适用于多种应用场景。
判别器(Discriminator)
作用:引导生成器合成高质量、连贯的波形,同时尽量减少人耳可感知的误差。
结构:包含多个子判别器,针对波形的不同分辨率窗口进行操作。
改进:研究表明,使用MRD替代MSD可以进一步提升音频质量。
训练目标(Training Objectives)
基础:基于HiFi-GAN的训练目标,但有所改进。
组成:
创新:将MSD替换为MRD,这一改变旨在减少音频中的音高和周期性错误,从而提升整体音频质量。
音频波形具有周期性
特征:音频波形具有高度周期性,可以自然地表示为原始周期组件的组合(即在Dirichlet条件下的傅里叶级数)。
意义:这表明我们需要向生成器架构提供所需的归纳偏差(inductive bias)。
当前GAN语音合成器并没有充分利用这种周期性,具有一定的局限性
方法:目前非自回归GAN语音合成器(例如Kong等人,2020年的研究)主要依赖于扩张卷积层来学习不同频率的必要周期组件。
激活函数:使用的激活函数(例如Leaky ReLU)可以产生具有必要非线性的新细节,但并不提供任何周期性的归纳偏差。
问题:发现Leaky ReLU在波形领域的外推(extrapolation)表现不佳。尽管模型能够在训练时看到的录音环境中生成高质量的语音信号,但在分布外场景(如未见过的录音环境、非语音发声和乐器音频)中性能显著下降。
故引入周期性归纳偏差(periodic inductive bias)
方法:通过应用最近提出的周期性激活函数——Snake函数(Liu等人,2020年),将周期性的适当归纳偏差引入到生成器中。Snake函数定义为 fα(x) = x + (1/α)sin2(αx),其中α是一个可训练参数,控制信号的周期组件频率,较大的α产生更高的频率。
特点:使用sin2(x)确保单调性,并使其易于优化。Liu等人(2020年)展示了这种周期激活在温度和金融数据预测中展现出改进的外推能力。
BigVGAN的应用
实施:在BigVGAN中,使用带有通道级可训练参数α的Snake激活函数fα(x),这些参数定义了每个一维卷积通道的周期频率。
效果:这种具有学习频率控制的周期函数形式使卷积模块能够自然地适应具有多周期组件的原始波形。研究表明,基于Snake的生成器对于训练期间未见过的分布外音频样本更加鲁棒,显示出在通用语音合成任务中强大的外推能力。
示例和证据:参见图2中的示例;使用Snake激活的BigVGAN-base与HiFi-GAN相比更接近地面真实样本。
强调了在使用Snake激活函数时,为了防止混叠伪像,需要在生成器中加入抗混叠处理。通过在每个残差扩张卷积层中应用经过滤波的Snake非线性,可以有效减少合成波形中的高频伪像,从而在各种评估中取得显著的性能提升。同时,也指出了在抗混叠处理中的一些挑战和局限性。
抗混叠表示(ANTI-ALIASED REPRESENTATION)
背景:虽然Snake激活函数为模拟原始波形提供了必要的周期性归纳偏差,但它可能会产生连续时间信号中的任意高频细节,这些细节无法由网络的离散时间输出表示,从而导致混叠(aliasing)伪像。
解决方案:为了抑制这种副作用,可以应用低通滤波器(例如Karras等人,2021年的研究)。这种抗混叠非线性操作包括沿时间维度对信号进行2倍上采样,应用Snake激活函数,然后将信号下采样2倍。这种做法是由Nyquist-Shannon采样定理(Shannon,1949年)启发的常见做法。
滤波器的应用:每次上采样和下采样操作都伴随着低通滤波器的使用,该滤波器使用具有Kaiser窗的窗口化sinc滤波器(Oppenheim & Schafer,2009年)。
在生成器中的应用
实施方式:在生成器内的每个残差扩张卷积层中应用这种过滤的Snake非线性,以获得离散时间1-D信号的抗混叠表示。该模块被命名为抗混叠多周期性组合(AMP)。
效果:集成过滤激活可以减少合成波形中的高频伪像。参见图2中的BigVGAN-base无滤波器与BigVGAN-base(带滤波器)的对比。
性能提升:将展示该方法在各种客观和主观评估中提供了显著的改进。
注意事项
其他探索:也探索了抗混叠上采样层,但这会导致显著的训练不稳定,并导致大型模型的早期崩溃。
强调了在开发大型神经语音合成器(如BigVGAN)时,既需要考虑模型规模的扩展,也需要关注训练过程中的稳定性和效率。通过增加模型大小、调整学习率和批量大小,以及应对训练过程中的挑战,研究者能够在保持GAN训练稳定性和实用性的同时,探索通用语音合成的极限。
模型扩展
起点:使用与HiFi-GAN V1配置相当的改进生成器作为起点,称为BigVGAN-base,参数约14M(由Kong等人,2020年提出)。
扩展方法:增加上采样块的数量和每个块的卷积通道数。BigVGAN-base通过4个上采样块将信号放大256倍,比例为[8, 8, 2, 2]。每个上采样块都伴随着多个带扩张卷积的残差层,即AMP模块。
细化调整:将256倍上采样分成6个块[4, 4, 2, 2, 2, 2],以实现更细粒度的特征细化。此外,将AMP模块(类似于HiFi-GAN中的MRF)的通道数从512增加到1536。
最终模型:具有1536个通道和112M参数的模型被称为BigVGAN。
训练调整
学习率:发现HiFi-GAN使用的默认学习率2×10^-4会导致BigVGAN训练早期崩溃。将学习率减半到1 × 10^-4可以减少这种失败。
批量大小:大批量大小有助于减少训练中的模式崩溃(Brock等人,2019年)。从常规的16增加到32,以在训练效率和稳定性之间取得良好平衡。
训练挑战:即使进行了上述更改,大型BigVGAN在训练早期仍可能容易崩溃。通过跟踪训练中各模块的梯度范数,发现抗混叠非线性显著放大了MPD的梯度范数,导致生成器在训练早期收到发散梯度,引发不稳定性和潜在崩溃。
解决方案:通过将全局梯度范数限制在10^3,接近112M BigVGAN生成器的平均梯度范数,来缓解这个问题。这种梯度裁剪防止了生成器的早期训练崩溃。
其他探索
探索方向:探索了包括改进模型架构、应用谱归一化(Miyato等人,2018年)来稳定GAN训练(对于大规模图像域GAN训练至关重要)和数据增强以提高模型泛化能力的各种方法。
研究范围:本研究在数据规模、模型规模和评估方法上均达到前所未有的水平,探索了通用神经语音合成的极限。
性能分析:
BigVGAN的改进:
大型GAN语音合成器的展示:
对未来研究的启发:
这项研究通过BigVGAN,展示了在通用神经语音合成领域的一个重要步骤,特别是在处理未见过的发言者、语言和录音环境等分布外数据方面的能力。此外,该研究还为未来在通用语音合成领域的研究提供了实际的经验和启示,预计将促进相关技术在现实世界应用中的发展和应用。