QUICK REVIEW

[论文解读] Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

Dario Amodei, Rishita Anubhai|arXiv (Cornell University)|Dec 8, 2015

Speech Recognition and Synthesis参考文献 51被引用 2,175

一句话总结

Deep Speech 2 展示了英语和普通话自动语音识别的端到端深度学习，在大规模数据和 HPC 加速训练下实现具有竞争力的准确率，并可在线部署，延迟低。

ABSTRACT

We show that an end-to-end deep learning approach can be used to recognize either English or Mandarin Chinese speech--two vastly different languages. Because it replaces entire pipelines of hand-engineered components with neural networks, end-to-end learning allows us to handle a diverse variety of speech including noisy environments, accents and different languages. Key to our approach is our application of HPC techniques, resulting in a 7x speedup over our previous system. Because of this efficiency, experiments that previously took weeks now run in days. This enables us to iterate more quickly to identify superior architectures and algorithms. As a result, in several cases, our system is competitive with the transcription of human workers when benchmarked on standard datasets. Finally, using a technique called Batch Dispatch with GPUs in the data center, we show that our system can be inexpensively deployed in an online setting, delivering low latency when serving users at scale.

研究动机与目标

证明在英语和普通话上均可工作、几乎无需语言特定工程的端到端 ASR。
研究深层架构（卷积层与循环层）及训练技术以提升准确性。
利用大规模标注数据和 HPC 优化以实现快速实验和模型部署。
对照标准基准和人工转录评估性能，并探讨生产部署方面的考虑。

提出的方法

使用端到端的 RNN-CTC 框架将声谱图输入映射到字素输出。
探索包含多层卷积和双向递归层的架构，包括用于深度 RNN 的批量归一化。
应用基于课程的 SortaGrad 训练策略，以稳定变长话语的训练。
在 GRU 与简单 RNN 单元之间进行权衡，以平衡准确性和训练效率。
加入时频卷积和步幅化以减少时间步和计算量。
引入单向行卷积以实现低延迟在线解码，并采用 BatchNorm 支持的部署策略。

实验结果

研究问题

RQ1是否可以在英语和普通话上，通过以 CTC 训练的端到端深度网络，在不使用手工工程组件的情况下达到具有竞争力的 WER/CER？
RQ2网络深度、卷积策略和循环单元类型如何影响英语与普通话的识别准确性？
RQ3需要多大规模的数据以及何种 HPC 优化才能在可行时间内训练出此类模型？
RQ4哪些部署策略（批处理分发、单向模型）能在规模化下实现低延迟的在线识别？

主要发现

在若干基准上，英语 WER 相对于以前的端到端系统下降高达 43%。
使用英语 11,940 小时和普通话 9,400 小时的训练数据来训练大型深度模型。
训练在 16 个 GPU 上持续约 50 teraFLOP/s，使得实验持续 3–5 天并实现快速迭代。
使用序列维统计的批量归一化可加速训练并提高深度 RNN 的泛化能力。
在等效参数数量下，GRU 单元的表现优于简单 RNN；但对于极大模型，在固定计算预算下简单 RNN 也可能具备竞争力。
普通话部署配合 BatchNorm 和 row-convolution 实现低延迟（第 98 百分位计算延迟为 67 ms，支持 10 个同时流）。
使用数据增强和合成数据进一步扩大英语和普通话的有效标注数据规模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。