QUICK REVIEW

[论文解读] Training Neural Speech Recognition Systems with Synthetic Speech Augmentation

Jason Li, Ravi Teja Gadde|arXiv (Cornell University)|Nov 2, 2018

Speech Recognition and Synthesis参考文献 13被引用 41

一句话总结

简述：论文用 Tacotron-2 风格模型生成的合成语音来增强 LibriSpeech，用以训练非常深的端到端 ASR 系统，在不使用外部语言模型的情况下达到字符级贪婪解码的最先进 WER。还分析了自然-合成数据混合的最优比例和正则化效应。

ABSTRACT

Building an accurate automatic speech recognition (ASR) system requires a large dataset that contains many hours of labeled speech samples produced by a diverse set of speakers. The lack of such open free datasets is one of the main issues preventing advancements in ASR research. To address this problem, we propose to augment a natural speech dataset with synthetic speech. We train very large end-to-end neural speech recognition models using the LibriSpeech dataset augmented with synthetic speech. These new models achieve state of the art Word Error Rate (WER) for character-level based models without an external language model.

研究动机与目标

促使人们使用合成数据来克服用于训练大型神经 ASR 模型的有限开放语音数据集。
开发并部署基于 Tacotron-2 及 Global Style Tokens 的合成语音增强管道，以模拟多位说话人。
证明将合成数据与自然数据以平衡比混合能够提升深度 Wave2Letter+-风格模型的 WER。
将合成增强与传统正则化技术进行比较，以评估在正则化深度 ASR 模型方面的有效性。

提出的方法

构建一个深度端到端的 Wave2Letter+-风格模型，具有 19 至 54 层卷积、使用 ReLU、批量归一化、残差连接、CTCLoss 与 LARC。
使用 Tacotron-2 搭配 Global Style Tokens，在 M-AILABS English-US 上进行训练，创建一个类似 LibriSpeech 的合成数据集，将 LibriSpeech 逐字稿与合成谱图及说话人风格配对。
在 LibriSpeech 与合成数据的 50/50 混合数据上训练模型，并在 test-clean 与 test-other 上评估贪婪 WER，且不进行语言模型重评分。
对不同的模型深度（24、34、44、54 层）和采样比进行实验，以确定最佳性能。
将合成增强与标准正则化方法（如 dropout、时间拉伸、噪声增强）进行比较，显示合成数据带来更优的提升。

实验结果

研究问题

RQ1合成语音增强是否能提升在 LibriSpeech 上训练的大型端到端 ASR 模型的 WER？
RQ2在训练中自然数据和合成数据的最佳混合比例是什么；对清洁集与其他测试集的性能有何影响？
RQ3模型深度如何与合成增强相互作用，影响 WER 提升？
RQ4合成增强相较于传统正则化技术在提升泛化方面有何不同？

主要发现

在采用综合数据训练的 54 层模型上，贪婪解码的 WER 在 test-clean 为 4.32%，test-other 为 14.08%，且未使用语言模型。
在束搜索和 4-gram 语言模型重评分下，test-other 的 WER 提升至 12.21%。
在测试的采样比中，50/50 的自然/合成数据混合给出了最佳性能。
合成增强在提升 WER 方面优于如增加 dropout、时间拉伸和噪声增强等标准正则化方法。
在多种深度（如 24/34/54 层）下，使用合成数据的模型在与只用 LibriSpeech 的模型相比时表现更优。
在研究时，达到了最先进的字符级贪婪解码结果，而且未使用外部语言模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。