QUICK REVIEW

[论文解读] Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation

Fadi Biadsy, Ron J. Weiss|arXiv (Cornell University)|Apr 8, 2019

Speech Recognition and Synthesis参考文献 32被引用 19

一句话总结

Parrotron 提出了一种端到端的语音到语音转换模型，可将任意输入语音的频谱图直接映射为目标说话人的频谱图，无需中间表示。该模型在听障人士语音的可懂度和自然度方面实现了显著提升，并在语音分离任务中表现出色，在去噪后使自动语音识别（ASR）的词错误率（WER）降低至17.3%。

ABSTRACT

We describe Parrotron, an end-to-end-trained speech-to-speech conversion model that maps an input spectrogram directly to another spectrogram, without utilizing any intermediate discrete representation. The network is composed of an encoder, spectrogram and phoneme decoders, followed by a vocoder to synthesize a time-domain waveform. We demonstrate that this model can be trained to normalize speech from any speaker regardless of accent, prosody, and background noise, into the voice of a single canonical target speaker with a fixed accent and consistent articulation and prosody. We further show that this normalization model can be adapted to normalize highly atypical speech from a deaf speaker, resulting in significant improvements in intelligibility and naturalness, measured via a speech recognizer and listening tests. Finally, demonstrating the utility of this model on other speech tasks, we show that the same model architecture can be trained to perform a speech separation task

研究动机与目标

开发一种端到端的语音到语音转换模型，将任意说话人的语音无须中间离散表示直接转换为标准目标语音。
通过语音归一化提升听障人士语音的可懂度与自然度。
评估该架构是否可适配用于重叠语音混合中的语音分离任务。
证明模型在保留语言内容的同时，能够消除非语言属性（如口音、语调和说话人身份）的影响。
评估模型在未见说话人混合中的泛化能力，避免依赖合成目标或基于掩码的方法。

提出的方法

模型采用编码器-解码器结构的序列到序列架构，结合自注意力机制，以原始对数梅尔频谱图为输入和输出。
编码器由两层2D卷积层组成，包含批归一化和下采样，随后是双向CLSTM和双向LSTM层。
解码器通过注意力机制自回归地生成目标频谱图，其隐藏状态来自编码器的输出，同时通过多任务学习训练了独立的音素解码器。
声码器将预测的频谱图转换为最终的时域波形，实现音频生成。
在语音分离任务中，模型在人工生成的最多八名说话人混合语音上进行微调，混合权重随机分配且增益已归一化。
模型训练目标为从混合信号中重建干净的目标语音，评估指标为在保留测试集上的ASR词错误率（WER）

实验结果

研究问题

RQ1端到端的语音到语音转换模型能否有效将多样化语音输入归一化为单一标准说话人的语音，同时保留语言内容？
RQ2相同的模型架构是否可在无需特定说话人微调的情况下，显著提升听障人士语音的可懂度与自然度？
RQ3Parrotron模型是否能在未见说话人混合中泛化至语音分离任务，而无需显式掩码或合成目标？
RQ4端到端的语音到语音转换是否优于级联的ASR-TTS流水线，在保留语音质量与降低ASR错误率方面表现更优？
RQ5多任务音素预测在多大程度上提升了模型在语音归一化与分离任务中的鲁棒性？

主要发现

Parrotron模型将混合噪声语音的ASR词错误率（WER）从33.2%降低至去噪后的17.3%，证明了其强大的语音分离性能。
在噪声条件下，模型显著减少了词插入错误（从19.1%降至2.2%），表明其有效抑制了背景说话人内容。
听音测试确认，经归一化的听障人士语音在可懂度与自然度方面均优于原始异常语音。
在去噪语音分离测试集上，模型实现了17.3%的WER，优于原始噪声输入（WER为33.2%）。
多任务音素预测提升了模型在转换过程中保留语言内容的能力，尤其在具有挑战性的异常语音情况下表现更优。
模型在未见说话人混合中实现了泛化，表明其在训练分布之外仍具备鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。