QUICK REVIEW

[论文解读] Listen, Attend and Spell

William Chan, Navdeep Jaitly|arXiv (Cornell University)|Aug 5, 2015

Multimodal Machine Learning Applications参考文献 19被引用 312

一句话总结

Listen, Attend and Spell (LAS) 是一种端到端神经网络，采用带有注意力机制的序列到序列框架，直接将语音转录为字符序列。它结合了金字塔形循环编码器（监听器）和基于注意力的循环解码器（拼写器），在不使用语言模型时达到 14.1% 的 WER，在使用重打分技术后降至 10.3%，优于以往的端到端模型，其优势在于避免了条件独立性假设，并能生成自然的拼写变体。

ABSTRACT

We present Listen, Attend and Spell (LAS), a neural network that learns to transcribe speech utterances to characters. Unlike traditional DNN-HMM models, this model learns all the components of a speech recognizer jointly. Our system has two components: a listener and a speller. The listener is a pyramidal recurrent network encoder that accepts filter bank spectra as inputs. The speller is an attention-based recurrent network decoder that emits characters as outputs. The network produces character sequences without making any independence assumptions between the characters. This is the key improvement of LAS over previous end-to-end CTC models. On a subset of the Google voice search task, LAS achieves a word error rate (WER) of 14.1% without a dictionary or a language model, and 10.3% with language model rescoring over the top 32 beams. By comparison, the state-of-the-art CLDNN-HMM model achieves a WER of 8.0%.

研究动机与目标

开发一种端到端语音识别系统，无需音素、HMM 或发音词典，即可将语音转录为文本。
通过使用注意力机制联合建模字符序列，克服 CTC 模型中条件独立性假设的限制。
使模型能够为同一语音输入生成多种拼写变体（例如 'triple a' 和 'aaa'）。
通过使用金字塔形 RNN 编码器和训练期间的采样技巧，提升训练稳定性和收敛速度。
证明语言模型重打分在大规模语音搜索任务中可显著提升性能。

提出的方法

监听器是一个金字塔形循环神经网络（RNN），用于处理滤波器组特征，并降低时间分辨率，以减轻注意力计算的负担。
拼写器是一个基于注意力的 RNN 解码器，逐个字符生成输出，其上下文来自监听器编码的特征。
在每个解码步骤中，利用解码器的隐藏状态计算注意力，以动态对齐声学特征与字符。
训练期间，模型使用真实标签字符序列作为解码器输入，并采用采样技巧防止对训练转录文本的过记忆。
模型通过在字符级别预测上使用交叉熵损失，实现端到端训练。
推理后，对前 32 个候选束应用语言模型重打分，以进一步降低 WER。

实验结果

研究问题

RQ1基于注意力机制的端到端序列到序列模型是否能在不使用音素或 HMM 的情况下，超越传统混合 DNN-HMM 系统的语音识别性能？
RQ2注意力机制模型是否能为同一语音输入生成多种合理的拼写变体，而 CTC 模型由于条件独立性假设无法做到这一点？
RQ3与标准 RNN 相比，使用金字塔形 RNN 编码器是否能显著提升训练速度和收敛速度？
RQ4在端到端模型中，语言模型重打分在降低 WER 方面的效果如何？
RQ5该模型是否能在无显式词典支持的情况下，对罕见词或 OOV（未登录词）实现良好泛化？

主要发现

LAS 在 Google 语音搜索任务的一个子集上，不使用语言模型或词典时，实现了 14.1% 的词错误率（WER）。
在对前 32 个候选束进行语言模型重打分后，LAS 将 WER 降低至 10.3%，接近当前最优的 CLDNN-HMM 系统（8.0% WER）的性能。
模型能自然地为同一语音输入生成多种拼写变体，如 'triple a' 和 'aaa'，证明其具备建模字符间依赖关系的能力。
若不使用金字塔编码器结构，训练收敛速度极慢，即使训练一个月，错误率仍显著偏高。
注意力机制至关重要：若无注意力机制，模型严重过拟合，转而记忆训练转录文本，而非关注声学特征。
训练期间的采样技巧能有效减少拼写器对训练转录文本的过拟合，提升泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。