QUICK REVIEW

[论文解读] Dense Prediction on Sequences with Time-Dilated Convolutions for Speech Recognition

Tom Sercu, Vaibhava Goel|arXiv (Cornell University)|Nov 28, 2016

Speech and Audio Processing参考文献 22被引用 47

一句话总结

本文提出时间膨胀卷积，通过在时间维度上允许步幅池化的同时保持完整话语的推理，实现了语音识别中高效、密集的序列标注。通过将计算机视觉中的空洞卷积方法适配到语音任务，该方法支持批量归一化，并在使用大规模n-gram语言模型的情况下，在Hub5'00上实现了7.7%的WER，创下单模型、单次推理性能的新 SOTA 记录。

ABSTRACT

In computer vision pixelwise dense prediction is the task of predicting a label for each pixel in the image. Convolutional neural networks achieve good performance on this task, while being computationally efficient. In this paper we carry these ideas over to the problem of assigning a sequence of labels to a set of speech frames, a task commonly known as framewise classification. We show that dense prediction view of framewise classification offers several advantages and insights, including computational efficiency and the ability to apply batch normalization. When doing dense prediction we pay specific attention to strided pooling in time and introduce an asymmetric dilated convolution, called time-dilated convolution, that allows for efficient and elegant implementation of pooling in time. We show results using time-dilated convolutions in a very deep VGG-style CNN with batch normalization on the Hub5 Switchboard-2000 benchmark task. With a big n-gram language model, we achieve 7.7% WER which is the best single model single-pass performance reported so far.

研究动机与目标

将逐帧语音分类重新构架为对完整话语的密集预测任务，类似于计算机视觉中的像素级分割。
通过用时间膨胀卷积替换步幅池化层，实现在声学建模中高效、完整话语的推理。
通过在整个网络中保持全分辨率特征图，支持序列训练中的批量归一化。
通过实现更广的上下文建模而不牺牲计算效率，提升在Hub5'00基准上的性能。
统一并扩展现有架构（如堆叠瓶颈网络），使用空洞卷积。

提出的方法

引入时间膨胀卷积，用膨胀因子等于池化步长的空洞卷积替换步幅池化层，从而保持完整空间（时间）分辨率。
利用空洞卷积在不下采样情况下扩展感受野，实现在深层网络中对大范围上下文的建模。
在频率和时间两个维度上应用批量归一化，以稳定训练并提升泛化能力。
采用类似VGG的深层CNN结构，结合残差连接和时间膨胀卷积，实现鲁棒的特征学习。
采用两阶段训练策略：首先在16亿帧上进行交叉熵训练，然后在3.1亿帧上使用Nesterov动量进行序列训练。
在解码时使用大型3600万词的n-gram语言模型，通过在保留集上进行先验缩放和声学权重调优。

实验结果

研究问题

RQ1使用时间膨胀卷积进行密集预测，是否能在支持批量归一化的同时，实现在语音识别中高效、完整话语的推理？
RQ2用空洞卷积替代步幅池化，对Hub5'00基准上的性能有何影响？
RQ3时间膨胀卷积能否统一并扩展如堆叠瓶颈网络等现有架构？
RQ4在该架构下，使用大型n-gram语言模型对单模型、单次推理的WER有何影响？
RQ5该方法能否同时提升混合HMM/NN与端到端语音识别模型的性能？

主要发现

所提方法在使用大型3600万词n-gram语言模型的情况下，在Hub5'00上实现了7.7%的WER，创下迄今报告的单模型、单次推理最佳性能。
与先前工作相比，该模型在Hub5'00上的WER从9.4%降低至8.5%，相对提升10%，证明了时间膨胀卷积的有效性。
由于完整话语分辨率的保持，批量归一化在序列训练中成功应用，从而提升了泛化能力。
当使用特定膨胀因子时，该架构与堆叠瓶颈网络等价，为现有模型提供了统一的视角。
该方法在不进行下采样的情况下实现了高效的时间池化，使更深的网络和更广的上下文建模成为可能，同时保持了计算效率。
即使仅使用n-gram语言模型，该模型也优于先前系统，且通过使用RNN/语言模型系统进行重排序可进一步提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。