(备注,上面的音频波形都转换为mel线性谱使用,书写只是方便理解)
In this work, we present a parallel endto-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text. With the uncertainty modeling over latent variables and the stochastic duration predictor, our method expresses the natural one-to-many relationship in which a text input can be spoken in multiple ways with different pitches and rhythms.
在这项工作中,我们提出了一种并行的端到端TTS方法,该方法比当前的两阶段模型产生更自然的声音。该方法采用normalizing flows(glow)增强的变分推理和对抗训练过程,提高了生成建模的表达能力。我们还提出了一个随机持续时间预测器,用于从输入文本合成具有不同节奏的语音。通过对潜在变量的不确定性建模和随机持续时间预测,我们的方法表达了一种自然的一对多关系,在这种关系中,文本输入可以以多个形式出现
Text-to-speech (TTS)通常被简化为两阶段模型,
第一阶段是从文本生成语音的中间表征,如mel谱或者语音特征
第二阶段是根据中间表征生成波形图
我们提出了一种并行的端到端TTS方法
①Using a variational autoencoder (VAE) (Kingma & Welling, 2014), we connect two modules of TTS systems through latent variables to enable efficient end-to-end learning
使用VAE,我们通过隐变量连接TTS系统的两个模块,实现高效的端到端学习
②we apply normalizing flows to our conditional prior distribution and adversarial training on the waveform domain
我们将normalizing flow应用于我们的条件先验分布和波形域上的对抗训练。
③ we also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text.
我们还提出了一个随机持续时间预测器,用于从输入文本合成具有不同节奏的语音。
上式中第一项即为ELBO,第二项为KL散度
pθ(z|c) 是给定条件c 情况下,因变量z的先验分布
pθ(x|z) 是数据x的似然函数, (及解码器)
qφ(z|x) 是后验分布
训练损失是-ELBO, 及重构损失 ? log pθ(x|z)
使用Monotonic Alignment Search方法,估计文本和目标语音的对齐矩阵A,
一个方法通过normalizing flow 最大化数据似然,算法感兴趣可以参考Monotonic Alignment Search论文
因为是优化ELBO,而不是直接优化p(x),因此对上述等式(5)进行变换,只提出和A有关的一项,得到下式(6)
文本持续时间预测
通过文本语音对齐矩阵,将语音求和
∑
j
A
i
j
\sum_j A_{ij}
∑j?Aij?可以得到文本的持续时间,然后训练一个持续时间预测模型
缺点:不能表现一个人同一时刻的不同语速,(即统一因素时长都是同一个值)
我们设计了一个随机时长预测模型,该模型基于flow ,目标是最大化似然,
因为每个因素的输入都是1,有以下2个问题
①是一个离散的整数,需要被量化后才能输入连续的 normalizing flows,
②是一个标量,阻止了高维变换,
我们使用了variational dequantization和 variational data augmentation两种方法,
①我们引入两个随机变量u和ν,它们与持续时间序列d具有相同的时间分辨率和维度,分别用于variational dequatization 和 variational data augmentation,
②限制u的取值范围为 [0, 1),那么d-u就为正数,
③我们将ν和d通道连接起来,以获得更高维度的潜在表示。
④然后从后验分布
q
?
(
u
,
v
∣
d
,
c
t
e
x
t
)
q_\phi (u,v|d,ctext)
q??(u,v∣d,ctext)中采样u,v,,目标是音素持续时间的对数似然的变分下界:
⑤loss为负变分下界
我们添加了一个判别器D来识别解码器G产生的输出和真实波形y
对抗损失和其他gan区别不大
结合VAE和GAN的训练,整体的VAE损失可以表示如下
We follow the discriminator architecture of the multi-period discriminator proposed in HiFi-GAN The multi-period discriminator is a mixture of Markovian window-based sub-discriminators , each of which operates on different periodic patterns of input waveforms.
我们借鉴HiFi-GAN中提出的多周期鉴别器的鉴别器结构,多周期鉴别器是基于马尔可夫窗的子鉴别器的混合物,每个子鉴别器对输入波形的不同周期模式起作用。
The stochastic duration predictor estimates the distribution of phoneme duration from a conditional input htext.
随机持续时间预测器从条件输入文本中估计音素持续时间的分布。
For the efficient parameterization of the stochastic duration predictor, we stack residual blocks with dilated and depth-separable convolutional layers. We also apply neural spline flows, which take the form of invertible nonlinear transformations by using monotonic rational-quadratic splines, to coupling layers.
为了有效地参数化随机持续时间预测器,我们用膨胀的和深度可分的卷积层叠加残差块。我们还应用neural spline flows用于耦合层,它采用单调有理-二次样条曲线的可逆非线性变换形式。
For the multi-speaker setting, we add a linear layer that transforms speaker embedding and add it to the input htext.
对于多speaker设置,我们添加了一个线性层来转换speaker嵌入并将其添加到输入文本中。
文章涉及知识点和公式证明较多,自行查看相关资料