一种用于文本转换语音的端到端对抗方法.
- paper:End-to-End Adversarial Text-to-Speech
- arXiv:link
文本转语音(Text-to-Speech,TTS)系统通常包括多个独立训练的部分,如文本对齐、频谱合成和音频波形合成。这类方法的每一个阶段都需要监督学习,训练成本较高。
作者提出了一种端到端的TTS模型,使用生成对抗网络把纯文本输入转换成语音波形。
判别器
判别器接收合成语音与真实语音为输入,并对两者进行判断。作者使用了两种判别器:
- Random window discriminator:选用五种不同的窗口尺寸,随机地比较合成语音与真实语音对应的片段。
- Spectrogram discriminator:对比合成语音与真实语音的频谱。
生成器
生成器接收文本输入,生成对应的语音波形。主要流程如下:
- 将文本转换成对应的音素(phoneme);
- 将音素通过词嵌入转换成对应的token;
- 通过堆叠的卷积网络预测每一个token的长度(对应到输出中该音素的时间长度);
- 计算每一个token的中心时刻位置;
- 使用高斯分布权重为token的中心位置赋值;
- 使用GAN-TTS生成器利用上述信息对齐,并产生音频。