QUICK REVIEW

[论文解读] End-to-End Speech Recognition: A Survey

Rohit Prabhavalkar, Takaaki Hori|arXiv (Cornell University)|Jan 1, 2023

Speech Recognition and Synthesis被引用 6

一句话总结

本综述提供了端到端（E2E）自动语音识别（ASR）模型的全面分类法，涵盖其架构、训练、解码以及与语言模型的集成。它强调了E2E ASR如何将声学建模与语言建模统一于单一神经网络中，以减少对手工设计组件的依赖，实现最先进性能；同时指出了在低资源设置、训练效率和模型可解释性方面的关键挑战。

ABSTRACT

In the last decade of automatic speech recognition (ASR) research, the introduction of deep learning brought considerable reductions in word error rate of more than 50% relative, compared to modeling without deep learning. In the wake of this transition, a number of all-neural ASR architectures were introduced. These so-called end-to-end (E2E) models provide highly integrated, completely neural ASR models, which rely strongly on general machine learning knowledge, learn more consistently from data, while depending less on ASR domain-specific experience. The success and enthusiastic adoption of deep learning accompanied by more generic model architectures lead to E2E models now becoming the prominent ASR approach. The goal of this survey is to provide a taxonomy of E2E ASR models and corresponding improvements, and to discuss their properties and their relation to the classical hidden Markov model (HMM) based ASR architecture. All relevant aspects of E2E ASR are covered in this work: modeling, training, decoding, and external language model integration, accompanied by discussions of performance and deployment opportunities, as well as an outlook into potential future developments.

研究动机与目标

提供端到端（E2E）ASR模型及其演进的全面分类法。
与基于HMM的经典架构相比，分析E2E ASR的特性。
研究联合训练、数据利用和模型集成在提升ASR性能中的作用。
识别E2E ASR中的开放性挑战，包括低资源学习、训练效率和模型可解释性。
通过概述E2E建模中的关键机遇，包括文本与音频数据的联合学习，为未来研究提供指导。

提出的方法

基于联合建模、单次搜索、联合训练、统一数据、从零开始训练、避免使用次级知识源以及通用建模，提出E2E ASR的多维定义。
回顾主要的E2E架构，包括RNN-T、基于Transformer的模型以及基于注意力的编码器-解码器（AED）系统。
分析训练策略，如声学与语言建模目标的联合优化，以及利用未标注语音和文本数据的技术。
讨论解码方法，包括束搜索、词网重打分以及用于实时推理的端到端端点检测。
考察外部语言模型与神经语言模型在生产系统中用于重打分的集成方式。
回顾部署案例研究，特别是谷歌在Pixel智能手机上部署的设备端E2E ASR系统，突出其在延迟与准确率方面的优化。

实验结果

研究问题

RQ1在架构、训练和推理方面，端到端ASR与基于经典HMM的ASR有何不同？
RQ2哪些关键的架构与训练组件使E2E ASR能够在极少依赖语言先验知识的情况下实现高性能？
RQ3在低资源或半监督设置中，E2E模型如何有效利用仅文本或仅语音的数据？
RQ4在设备上部署E2E ASR模型的主要挑战是什么？这些挑战在生产系统中如何被解决？
RQ5E2E ASR中的开放性研究问题有哪些，特别是关于序列长度偏差、鲁棒性与模块化方面？

主要发现

与经典系统相比，E2E ASR模型在LibriSpeech数据集上实现了超过50%的词错误率相对降低，达到最先进性能。
生产级E2E ASR系统（如在Pixel 6上部署的系统）通过采用Conformer编码器、两阶段束搜索和神经语言模型重打分，实现了卓越的准确率与低延迟。
设备端E2E模型（包括Pixel 4和5上的模型）可在CPU上实时运行，并采用FastEmit和端到端端点检测等技术降低延迟。
尽管性能优异，E2E模型在低资源和领域不匹配场景下仍表现不佳，表明亟需更高效的数据训练策略。
AED模型中的长度偏差问题仍是持续存在的挑战，目前尚无完全理论支撑的解释或解决方案。
E2E模型在多通道场景下展现出联合语音分离、说话人分割与ASR的强大潜力，预示着统一语音处理流水线的发展路径。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。