Skip to main content
QUICK REVIEW

[论文解读] Training Neural Speech Recognition Systems with Synthetic Speech Augmentation

Jason Li, Ravi Teja Gadde|arXiv (Cornell University)|Nov 2, 2018
Speech Recognition and Synthesis参考文献 13被引用 41
一句话总结

简述:论文用 Tacotron-2 风格模型生成的合成语音来增强 LibriSpeech,用以训练非常深的端到端 ASR 系统,在不使用外部语言模型的情况下达到字符级贪婪解码的最先进 WER。还分析了自然-合成数据混合的最优比例和正则化效应。

ABSTRACT

Building an accurate automatic speech recognition (ASR) system requires a large dataset that contains many hours of labeled speech samples produced by a diverse set of speakers. The lack of such open free datasets is one of the main issues preventing advancements in ASR research. To address this problem, we propose to augment a natural speech dataset with synthetic speech. We train very large end-to-end neural speech recognition models using the LibriSpeech dataset augmented with synthetic speech. These new models achieve state of the art Word Error Rate (WER) for character-level based models without an external language model.

研究动机与目标

  • 促使人们使用合成数据来克服用于训练大型神经 ASR 模型的有限开放语音数据集。
  • 开发并部署基于 Tacotron-2 及 Global Style Tokens 的合成语音增强管道,以模拟多位说话人。
  • 证明将合成数据与自然数据以平衡比混合能够提升深度 Wave2Letter+-风格模型的 WER。
  • 将合成增强与传统正则化技术进行比较,以评估在正则化深度 ASR 模型方面的有效性。

提出的方法

  • 构建一个深度端到端的 Wave2Letter+-风格模型,具有 19 至 54 层卷积、使用 ReLU、批量归一化、残差连接、CTCLoss 与 LARC。
  • 使用 Tacotron-2 搭配 Global Style Tokens,在 M-AILABS English-US 上进行训练,创建一个类似 LibriSpeech 的合成数据集,将 LibriSpeech 逐字稿与合成谱图及说话人风格配对。
  • 在 LibriSpeech 与合成数据的 50/50 混合数据上训练模型,并在 test-clean 与 test-other 上评估贪婪 WER,且不进行语言模型重评分。
  • 对不同的模型深度(24、34、44、54 层)和采样比进行实验,以确定最佳性能。
  • 将合成增强与标准正则化方法(如 dropout、时间拉伸、噪声增强)进行比较,显示合成数据带来更优的提升。

实验结果

研究问题

  • RQ1合成语音增强是否能提升在 LibriSpeech 上训练的大型端到端 ASR 模型的 WER?
  • RQ2在训练中自然数据和合成数据的最佳混合比例是什么;对清洁集与其他测试集的性能有何影响?
  • RQ3模型深度如何与合成增强相互作用,影响 WER 提升?
  • RQ4合成增强相较于传统正则化技术在提升泛化方面有何不同?

主要发现

  • 在采用综合数据训练的 54 层模型上,贪婪解码的 WER 在 test-clean 为 4.32%,test-other 为 14.08%,且未使用语言模型。
  • 在束搜索和 4-gram 语言模型重评分下,test-other 的 WER 提升至 12.21%。
  • 在测试的采样比中,50/50 的自然/合成数据混合给出了最佳性能。
  • 合成增强在提升 WER 方面优于如增加 dropout、时间拉伸和噪声增强等标准正则化方法。
  • 在多种深度(如 24/34/54 层)下,使用合成数据的模型在与只用 LibriSpeech 的模型相比时表现更优。
  • 在研究时,达到了最先进的字符级贪婪解码结果,而且未使用外部语言模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。