[论文解读] Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition
本论文提出了一种竞争性强的端到端大词汇量语音识别系统,采用深度双向LSTM RNN与CTC损失,直接从声学输入预测完整词汇,无需发音词典、语言模型或解码。该模型在12.5万小时半监督YouTube字幕数据上进行训练,在一项具有挑战性的YouTube转录任务中实现了13.4%的词错误率,优于表现强劲的传统上下文相关音素基系统。
We present results that show it is possible to build a competitive, greatly simplified, large vocabulary continuous speech recognition system with whole words as acoustic units. We model the output vocabulary of about 100,000 words directly using deep bi-directional LSTM RNNs with CTC loss. The model is trained on 125,000 hours of semi-supervised acoustic training data, which enables us to alleviate the data sparsity problem for word models. We show that the CTC word models work very well as an end-to-end all-neural speech recognition model without the use of traditional context-dependent sub-word phone units that require a pronunciation lexicon, and without any language model removing the need to decode. We demonstrate that the CTC word models perform better than a strong, more complex, state-of-the-art baseline with sub-word units.
研究动机与目标
- 开发一种简化的端到端语音识别系统,绕过传统组件如发音词典和语言模型。
- 探究使用深度神经网络进行直接词级建模是否能在大词汇量任务中实现具有竞争力的性能。
- 通过在12.5万小时YouTube字幕上进行大规模半监督训练,克服词级声学建模中的数据稀疏性问题。
- 评估CTC损失在无需显式解码的情况下实现词级模型端到端训练的有效性。
- 将词级模型与使用子词单元和语言模型的强基线系统进行性能对比。
提出的方法
- 该模型采用深层双向LSTM RNN架构,通过堆叠的前向和后向LSTM层捕捉声学序列中的长距离上下文信息。
- 网络使用连接时序分类(CTC)损失进行训练,通过学习从原始声学帧直接预测词序列,实现无需对齐的序列建模。
- 输出层在10万个词汇的词表上使用softmax,包括数字实体,并使用特殊空白标记处理可变长度对齐。
- CTC损失函数通过在所有可能的输入帧与标签序列对齐路径的网格上使用前向-后向算法计算。
- 该模型在12.5万小时的公共YouTube视频半监督音频字幕上进行训练,以缓解词级单元的数据稀疏性问题。
- 评估了两种变体:一种为“口语词”模型(输出为口语形式),另一种为“书面词”模型(输出标准化为书面形式),两者均端到端训练。

实验结果
研究问题
- RQ1使用CTC损失的深度双向LSTM RNN能否有效建模以完整词汇作为声学单元的大词汇量语音识别?
- RQ2直接词级建模是否可消除端到端系统中对发音词典和语言模型的需求?
- RQ3是否足够的训练数据可补偿词级声学建模中的数据稀疏性,从而实现具有竞争力的性能?
- RQ4基于CTC的词级模型性能与使用语言模型和解码的强上下文相关音素基系统相比如何?
- RQ5语言模型对CTC词级模型性能的提升程度有多大?与传统系统相比,其影响有何不同?
主要发现
- CTC词级模型在一项具有挑战性的YouTube视频转录任务中实现了13.4%的词错误率,优于表现强劲的传统上下文相关音素基系统(WER为14.2%)。
- 在口语领域,CTC词级模型在不使用任何语言模型或解码的情况下实现12.0%的WER,略优于使用3000万元5-gram语言模型的CD音素模型。
- 添加语言模型后,CTC口语词模型的WER从12.0%降至11.6%,表明其对语言模型的依赖性明显小于传统系统。
- CTC书面词模型在使用语言模型重打分解码路径后实现13.4%的WER,仅提升0.5%,表明模型本身已具备极强的鲁棒性。
- 该模型展现出强大的泛化能力,即使在未在音乐视频内容上进行训练的情况下,也能准确转录音乐视频,如定性结果所示。
- 结果证实,大规模半监督数据(12.5万小时)可有效支持词级模型的训练,使其成为子词单元系统的可行替代方案。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。