QUICK REVIEW

[论文解读] EESEN: End-to-End Speech Recognition using Deep RNN Models and WFST-based Decoding

Yajie Miao, Mohammad Gowayyed|arXiv (Cornell University)|Jul 29, 2015

Speech Recognition and Synthesis参考文献 29被引用 169

一句话总结

本文提出了EESEN，一种端到端语音识别框架，采用深度双向RNN结合连接时序分类（CTC）进行声学建模，并利用WFST解码高效集成词典和语言模型。该框架在实现与混合HMM/DNN系统相当的最先进词错误率（WER）的同时，将解码速度提升3.2倍，图结构大小减少45%，为端到端自动语音识别研究提供了一个简化且开源的流水线。

ABSTRACT

The performance of automatic speech recognition (ASR) has improved tremendously due to the application of deep neural networks (DNNs). Despite this progress, building a new ASR system remains a challenging task, requiring various resources, multiple training stages and significant expertise. This paper presents our Eesen framework which drastically simplifies the existing pipeline to build state-of-the-art ASR systems. Acoustic modeling in Eesen involves learning a single recurrent neural network (RNN) predicting context-independent targets (phonemes or characters). To remove the need for pre-generated frame labels, we adopt the connectionist temporal classification (CTC) objective function to infer the alignments between speech and label sequences. A distinctive feature of Eesen is a generalized decoding approach based on weighted finite-state transducers (WFSTs), which enables the efficient incorporation of lexicons and language models into CTC decoding. Experiments show that compared with the standard hybrid DNN systems, Eesen achieves comparable word error rates (WERs), while at the same time speeding up decoding significantly.

研究动机与目标

简化传统混合HMM/DNN语音识别系统中复杂的多阶段流程，该流程依赖高斯混合模型（GMM）、强制对齐和人工调优的超参数。
通过使用CTC进行联合序列建模，实现在无需GMM或帧级标签的情况下实现端到端语音识别。
提供一种高效且可扩展的解码方法，通过WFST组合直接集成词典和语言模型。
建立一个共享的开源基准平台，用于端到端语音识别研究，减少模型配置和解码方法的差异性。
证明使用上下文无关目标（音素/字符）的端到端系统可达到或超越强健的混合基线系统性能。

提出的方法

使用长短期记忆（LSTM）单元训练深层双向RNN，通过CTC目标函数建模从语音到标签序列的映射。
利用CTC自动推断语音帧与上下文无关标签（音素或字符）之间的对齐关系，消除对强制对齐或GMM的依赖。
将CTC输出、词典和语言模型表示为加权有限状态转换器（WFST），以高效组合成单一解码图。
在组合后的WFST图上应用束搜索，实现集成语言建模的高效、基于语音格的解码。
将状态数从数千个三音素（senones）减少到几十个音素/字符，显著降低解码复杂度。
在GPU上实现系统，采用混合精度训练和优化内存使用，以加速训练和推理。

实验结果

研究问题

RQ1仅使用RNN和CTC的端到端语音识别系统能否达到与强健的混合HMM/DNN系统相当的性能？
RQ2如何高效且有效地将词典和语言模型集成到基于CTC的解码中，而不影响速度或准确性？
RQ3统一的开源框架能否简化不同研究团队在端到端语音识别系统上的开发与基准测试？
RQ4与使用上下文相关状态相比，使用上下文无关目标（如音素或字符）是否能带来更快的解码速度和更低的内存占用？
RQ5移除GMM和多阶段训练能否显著简化语音识别流水线，同时保持或提升识别准确率？

主要发现

基于音素的EESEN系统在使用三元语言模型时，词错误率（WER）达到7.87%，与强健的混合HMM/DNN基线系统（WER为7.14%）性能相当，同时参数量更少（850万 vs. 920万）。
EESEN的解码速度比混合HMM/DNN系统快3.2倍，实时因子从2.06降低至0.64，这是由于将状态数从数千个三音素大幅减少到几十个音素所致。
EESEN的解码图大小为263 MB，比混合系统使用的HCLG图（480 MB）小45%，降低了磁盘存储需求。
基于字符的EESEN系统在使用微调的三元语言模型时，WER达到7.34%，优于先前的端到端系统（如Graves等人：8.7%；Hannun等人：14.1%），在相同的WSJ基准上表现更优。
EESEN的结果是通过完全端到端的流水线获得，未引入任何GMM或混合DNN模型的干预，与以往依赖混合模型进行n-best重打分的工作不同。
EESEN的开源发布为未来研究提供了标准化、可扩展的平台，支持在端到端语音识别系统之间进行公平比较。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。