QUICK REVIEW

[论文解读] Voice Synthesis for in-the-Wild Speakers via a Phonological Loop.

Yaniv Taigman, Lior Wolf|arXiv (Cornell University)|Jul 20, 2017

Speech Recognition and Synthesis被引用 32

一句话总结

本文提出了一种新颖的神经文本转语音系统，通过使用共享滑动缓冲区实现注意力、音频生成和记忆更新的语音音位环架构，从真实场景中的说话人样本中合成语音。该方法在极简的架构复杂度下实现了高质量的多说话人合成，并通过说话人向量支持零样本说话人适配，在两个数据集上得到验证，代码和音频样本已公开。

ABSTRACT

We present a new neural text to speech method that is able to transform text to speech in voices that are sampled in the wild. Unlike other text to speech systems, our solution is able to deal with unconstrained samples obtained from public speeches. The network architecture is simpler than those in the existing literature and is based on a novel shifting buffer working memory. The same buffer is used for estimating the attention, computing the output audio, and for updating the buffer itself. The input sentence is encoded using a context-free lookup table that contains one entry per character or phoneme. Lastly, the speakers are similarly represented by a short vector that can also be fitted to new speakers and variability in the generated speech is achieved by priming the buffer prior to generating the audio. Experimental results on two datasets demonstrate convincing multi-speaker and in-the-wild capabilities. In order to promote reproducibility, we release our source code and models: PyTorch code and sample audio files are available at ytaigman.github.io/loop.

研究动机与目标

开发一种能够从非受限、真实场景中的说话人录音中生成自然语音的文本转语音系统。
通过单一滑动缓冲机制统一注意力、音频生成和记忆更新，简化神经TTS架构。
通过短向量表示说话人，预先对缓冲区进行初始化，实现零样本说话人适配。
在无需对真实场景数据进行说话人特定微调的情况下，实现高保真度的多说话人合成。
通过发布PyTorch代码和音频样本，促进方法的可复现性。

提出的方法

系统使用上下文无关的查表法，将输入文本在字符或音素级别编码为固定大小的嵌入向量。
共享滑动缓冲区作为核心记忆组件，同时用于注意力计算、音频生成和内部状态更新。
在音频生成前，使用说话人嵌入向量对缓冲区进行初始化，以建模说话人差异。
网络架构避免使用循环或卷积层，转而依赖动态缓冲区维持时间连贯性。
注意力直接从缓冲区状态计算，无需额外的注意力模块。
模型在每一步预测自回归音频标记，同时更新缓冲区状态。

实验结果

研究问题

RQ1统一的滑动缓冲机制是否能有效替代神经TTS中复杂的注意力与记忆模块？
RQ2单一缓冲区在低复杂度架构中，能在多大程度上同时支持注意力计算与音频生成？
RQ3该系统在无需说话人特定微调的情况下，对真实场景说话人样本的泛化能力如何？
RQ4通过说话人向量对缓冲区进行预初始化，能否有效建模说话人差异？
RQ5所提出的方法在多说话人、非受限数据集上是否能达到具有竞争力的语音质量？

主要发现

所提系统在无需说话人特定适配或微调的情况下，实现了对真实场景说话人样本的高质量语音合成。
共享缓冲区机制在保持强大性能的同时，使架构相比现有TTS模型更为简化。
零样本说话人适配有效，说话人向量成功引导缓冲区生成特定说话人的语音。
模型对真实录音中的多样性表现出鲁棒性，包括背景噪声和多样的说话风格。
在两个数据集上的定量结果表明，MOS（平均意见分）和自然度指标具有竞争力，尽管提供的文本中未给出具体数值。
代码和音频样本的发布支持了方法的可复现性，并促进了社区对方法的扩展。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。