一种用于文本转换语音的端到端对抗方法.

文本转语音(Text-to-Speech,TTS)系统通常包括多个独立训练的部分,如文本对齐、频谱合成和音频波形合成。这类方法的每一个阶段都需要监督学习,训练成本较高。

作者提出了一种端到端的TTS模型,使用生成对抗网络把纯文本输入转换成语音波形。

判别器

判别器接收合成语音与真实语音为输入,并对两者进行判断。作者使用了两种判别器:

生成器

生成器接收文本输入,生成对应的语音波形。主要流程如下:

  1. 将文本转换成对应的音素(phoneme)
  2. 将音素通过词嵌入转换成对应的token
  3. 通过堆叠的卷积网络预测每一个token的长度(对应到输出中该音素的时间长度);
  4. 计算每一个token的中心时刻位置;
  5. 使用高斯分布权重为token的中心位置赋值;
  6. 使用GAN-TTS生成器利用上述信息对齐,并产生音频。