QUICK REVIEW

[论文解读] Fully Convolutional Speech Recognition

Neil Zeghidour, Qiantong Xu|arXiv (Cornell University)|Dec 17, 2018

Speech Recognition and Synthesis参考文献 27被引用 82

一句话总结

这篇论文提出一个完全卷积的端到端语音识别系统，直接对原始波形进行处理，具有可学习的前端和卷积语言模型，在端到端系统中在 WSJ 和 Librispeech 上达到最先进的结果。

ABSTRACT

Current state-of-the-art speech recognition systems build on recurrent neural networks for acoustic and/or language modeling, and rely on feature extraction pipelines to extract mel-filterbanks or cepstral coefficients. In this paper we present an alternative approach based solely on convolutional neural networks, leveraging recent advances in acoustic models from the raw waveform and language modeling. This fully convolutional approach is trained end-to-end to predict characters from the raw waveform, removing the feature extraction step altogether. An external convolutional language model is used to decode words. On Wall Street Journal, our model matches the current state-of-the-art. On Librispeech, we report state-of-the-art performance among end-to-end models, including Deep Speech 2 trained with 12 times more acoustic data and significantly more linguistic data.

研究动机与目标

激发用完全卷积网络替代递归结构来实现端到端 ASR 的动机。
展示从原始波形进行端到端训练，不使用手工特征。
引入用于解码的卷积语言模型（在 ASR 中）。
在大词汇量数据集（WSJ 和 Librispeech）上进行评估，以确立端到端系统中的最先进水平。
分析可学习前端及其对性能的影响，特别是在嘈杂环境中的表现。

提出的方法

一个可学习的前端，模仿预强调并从原始波形计算特征样表示。
一个深度卷积声学模型，使用门控线性单元，并采用 Auto Segmentation Criterion (ASG) 训练以预测字母。
一个卷积语言模型（GCNN-14B），用于在束搜索期间对转录进行打分。
结合声学模型分数与卷积 LM 的束搜索解码，并对 LM 权重、单词插入奖励和静默惩罚进行调优的超参数。
在 WSJ（80 小时）和 Librispeech（1000 小时）上进行训练和评估，并使用数据集特定的语言模型训练数据和超参数调优。

实验结果

研究问题

RQ1在端到端 ASR 中，完全卷积架构能否在声学和语言建模方面达到或超过递归架构？
RQ2从原始波形学习前端相对于传统的 mel-filterbank 特征是否更有利，特别是在嘈杂条件下？
RQ3将卷积语言模型整合到解码中是否比传统的 n-gram 语言模型提升解码性能？
RQ4在 WSJ 和 Librispeech 上，改变可学习前端滤波器数量和 LM 上下文对 WER 的影响是什么？
RQ5基于端到端 CNN 的 ASR 与 WSJ 和 Librispeech 上的最先进系统相比的表现如何？

主要发现

该完全卷积模型在 WSJ 上与当前端到端系统的最先进水平相当。
在 Librispeech 上，它在端到端模型中达到最先进的表现，包括 DeepSpeech 2，在嘈杂测试集上实现 2% 的绝对 WER 下降，清洁语音约下降 0.5%。
卷积语言模型相对于 4-gram LM 产生系统性的改进，具有更好的困惑度和更大的感受野。
从原始波形学习前端可提高性能，特别是在嘈杂数据中，并增加可学习滤波器数量可带来进一步提升（例如 Librispeech 嘈杂测试集上绝对 WER 降低 1.5%）。
学习得到的前端滤波器往往聚集在类似 mel 的、以低频为偏向的频谱附近，这表明 mel 标度对于 ASR 可能并非最优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。