QUICK REVIEW

[论文解读] Letter-Based Speech Recognition with Gated ConvNets

Vitaliy Liptchinsky, Gabriel Synnaeve|arXiv (Cornell University)|Dec 22, 2017

Speech Recognition and Synthesis参考文献 47被引用 34

一句话总结

该论文提出一种基于字母的语音识别系统，采用门控卷积神经网络（Gated ConvNets）结合高丢弃率和通过CTC或ASG的结构化输出学习，在LibriSpeech上达到基于字母的系统当前最先进性能，并在WSJ上匹配现有最佳基于字母的模型，且无需使用额外数据或高级语言模型。

ABSTRACT

In the recent literature, "end-to-end" speech systems often refer to letter-based acoustic models trained in a sequence-to-sequence manner, either via a recurrent model or via a structured output learning approach (such as CTC). In contrast to traditional phone (or senone)-based approaches, these "end-to-end'' approaches alleviate the need of word pronunciation modeling, and do not require a "forced alignment" step at training time. Phone-based approaches remain however state of the art on classical benchmarks. In this paper, we propose a letter-based speech recognition system, leveraging a ConvNet acoustic model. Key ingredients of the ConvNet are Gated Linear Units and high dropout. The ConvNet is trained to map audio sequences to their corresponding letter transcriptions, either via a classical CTC approach, or via a recent variant called ASG. Coupled with a simple decoder at inference time, our system matches the best existing letter-based systems on WSJ (in word error rate), and shows near state of the art performance on LibriSpeech.

研究动机与目标

开发一种简单、端到端的语音识别系统，绕过传统的基于音素的声学建模和强制对齐。
探究门控线性单元（GLUs）的卷积神经网络（ConvNets）在基于字母的语音识别中是否能与基于RNN或混合系统相媲美。
评估结构化输出学习（CTC和ASG）在无需外部语言模型或数据增强的情况下训练基于字母的声学模型的有效性。
在标准基准如WSJ和LibriSpeech上，将所提系统的性能与现有最先进的基于字母和基于音素的自动语音识别（ASR）系统进行比较。

提出的方法

声学模型为使用门控线性单元（GLUs）的一维卷积神经网络（1D ConvNet），有助于缓解梯度消失问题，同时保持非线性表征能力。
模型处理原始音频的对数梅尔滤波器组特征，并为每个时间帧输出字母的概率分布。
训练采用连接时序分类（CTC）或其变体ASG（Collobert等，2016），两者均支持端到端的序列到序列学习。
推理时使用自定义的束搜索解码器，从模型的字母级输出生成最可能的词序列。
训练期间应用高丢弃率，以提高泛化能力并减少过拟合。
系统仅在原始音频和字母转录上进行训练，在大多数设置中不使用说话人自适应或外部语言模型。

实验结果

研究问题

RQ1基于门控卷积神经网络的声学模型是否能在不依赖RNN或注意力机制的情况下，实现具有竞争力的词错误率（WER）？
RQ2通过CTC或ASG的结构化输出学习与其它序列训练准则相比，在基于字母的ASR中的性能如何？
RQ3在没有显式音素或音素单元建模的情况下，简单的卷积神经网络模型在多大程度上能隐式学习发音模式？
RQ4在无外部数据或语言模型的情况下，该系统是否在标准基准如WSJ和LibriSpeech上优于现有基于字母的系统？
RQ5模型性能如何随训练数据量增长而变化？在大规模数据集（如LibriSpeech）上是否能与基于音素的系统相媲美？

主要发现

所提出的门控卷积神经网络系统在LibriSpeech测试集-clean上达到5.1%的词错误率（WER），与现有最佳基于字母的系统持平，并且在仅使用10倍少的训练数据下，优于Deep Speech 2在干净数据上的表现。
在LibriSpeech测试集-other上，系统使用CTC时达到16.0%的WER，使用ASG时达到14.5%，表现出强大的鲁棒性和与当前最先进基于字母模型的竞争力。
在WSJ eval92上，系统使用ASG时达到5.6%的WER，与最佳报告的基于字母模型性能持平，并优于许多使用额外数据或语言模型的先前基于字母的系统。
即使不使用解码器，该模型在LibriSpeech测试集-clean上仍达到6.7%的WER，表明门控卷积神经网络的原始输出已能捕捉到强大的词级表征。
该系统在不使用说话人自适应、语言模型集成或数据增强的情况下，在LibriSpeech上表现具有竞争力，凸显了该架构与训练设置的有效性。
尽管基于音素的系统在WSJ上仍领先（WER为3.5%），但所提出的基于字母的系统属于当前最先进的端到端模型之一，表明发音建模可通过足够数据实现有效的端到端学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。