QUICK REVIEW

[论文解读] Segmental Recurrent Neural Networks for End-to-end Speech Recognition

Liang Lu, Lingpeng Kong|arXiv (Cornell University)|Mar 1, 2016

Speech Recognition and Synthesis参考文献 27被引用 42

一句话总结

该论文通过联合训练双向LSTM编码器与零阶分段条件随机场（CRF），提出了一种用于端到端语音识别的分段循环神经网络（RNN），实现了无需外部特征或分段信息的端到端学习。该模型仅使用原始声学特征且不依赖语言模型，在TIMIT数据集上取得了17.3%的音素错误率（PER），优于以往基于CRF的系统。

ABSTRACT

We study the segmental recurrent neural network for end-to-end acoustic modelling. This model connects the segmental conditional random field (CRF) with a recurrent neural network (RNN) used for feature extraction. Compared to most previous CRF-based acoustic models, it does not rely on an external system to provide features or segmentation boundaries. Instead, this model marginalises out all the possible segmentations, and features are extracted from the RNN trained together with the segmental CRF. In essence, this model is self-contained and can be trained end-to-end. In this paper, we discuss practical training and decoding issues as well as the method to speed up the training in the context of speech recognition. We performed experiments on the TIMIT dataset. We achieved 17.3 phone error rate (PER) from the first-pass decoding --- the best reported result using CRFs, despite the fact that we only used a zeroth-order CRF and without using any language model.

研究动机与目标

开发一种自包含的端到端声学模型，联合学习特征提取与分段，无需依赖外部系统。
通过使用联合训练的半马尔可夫CRF建模序列级依赖关系，克服HMM和CTC的局限性。
通过消除对真实分段或外部特征的需求，提升以往基于CRF模型的性能。
证明零阶分段CRF结合端到端训练可在TIMIT上实现SOTA结果，且无需语言模型。

提出的方法

该模型使用双向LSTM编码器从原始声学帧中提取上下文感知特征。
零阶分段CRF定义了输出标签及其分段边界上的序列级条件概率。
训练过程中对所有可能的分段进行边缘化，实现RNN与CRF参数的联合优化。
子采样网络通过在CRF解码前压缩序列长度，降低计算成本。
应用Dropout和权重正则化以防止过拟合，尤其在TIMIT等小数据集上。
解码使用动态规划结合束搜索，以在学习到的模型下寻找最可能的标签序列。

实验结果

研究问题

RQ1能否在无需外部特征或分段信息的情况下，通过与RNN编码器联合训练，有效实现分段CRF的端到端训练？
RQ2在TIMIT上，零阶分段CRF的性能与高阶或语言模型增强系统相比如何？
RQ3在该端到端设置中，模型深度、宽度和正则化对识别准确率的影响是什么？
RQ4与依赖外部系统或二次重打分的先前基于CRF的模型相比，RNN与分段CRF的联合训练是否能实现更优性能？

主要发现

该模型仅使用原始声学特征且不依赖语言模型，在TIMIT数据集上实现了17.3%的音素错误率（PER），为基于CRF的系统设立了新的SOTA记录。
最佳性能由6层双向LSTM（每层250个单元）配合Dropout正则化实现，凸显了模型容量与正则化的重要性。
使用精心设计的Kaldi特征（39维MFCC，经LDA、MLLT和SVD处理）后，PER降至17.3%，表明特征质量具有显著影响。
该模型优于以往基于CRF系统的首次解码结果，包括使用真实分段或二次重打分的系统。
尽管未使用语言模型，其结果仍与最先进的端到端模型（如CTC和基于注意力的RNN）具有竞争力。
消融实验确认，更大的模型配合Dropout能更好地泛化，而无正则化的模型在小样本TIMIT数据集上出现过拟合。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。