QUICK REVIEW

[论文解读] Semantic Mask for Transformer based End-to-End Speech Recognition

Chengyi Wang, Yu Wu|arXiv (Cornell University)|Dec 6, 2019

Speech Recognition and Synthesis参考文献 22被引用 24

一句话总结

本文提出了一种用于基于Transformer的端到端自动语音识别的语义掩码正则化技术，该技术在训练过程中对对应于单个输出标记（如词或子词）的整个语音片段进行掩码，以提升语言建模能力和泛化性能。该方法结合了语义掩码与SpecAugment技术，在Librispeech 960h和TED-LIUM2数据集上实现了当前最优的词错误率（WER），相较于基线端到端模型相对减少了最高达10%的WER。

ABSTRACT

Attention-based encoder-decoder model has achieved impressive results for both automatic speech recognition (ASR) and text-to-speech (TTS) tasks. This approach takes advantage of the memorization capacity of neural networks to learn the mapping from the input sequence to the output sequence from scratch, without the assumption of prior knowledge such as the alignments. However, this model is prone to overfitting, especially when the amount of training data is limited. Inspired by SpecAugment and BERT, in this paper, we propose a semantic mask based regularization for training such kind of end-to-end (E2E) model. The idea is to mask the input features corresponding to a particular output token, e.g., a word or a word-piece, in order to encourage the model to fill the token based on the contextual information. While this approach is applicable to the encoder-decoder framework with any type of neural network architecture, we study the transformer-based model for ASR in this work. We perform experiments on Librispeech 960h and TedLium2 data sets, and achieve the state-of-the-art performance on the test set in the scope of E2E models.

研究动机与目标

为解决注意力机制端到端自动语音识别模型在低资源或噪声环境下语言建模能力有限的问题。
在不依赖外部语言模型的前提下，提升模型的泛化能力和对声学失真的鲁棒性。
开发一种结构化的、基于标记的掩码策略，以鼓励基于上下文的重建，类似于BERT，但应用于声学空间。
证明语义掩码优于随机掩码（如SpecAugment），并在Librispeech和TED-LIUM2等多样化数据集上提升性能。

提出的方法

该方法使用强制对齐（通过Montreal Forced Aligner）获取每个语音样本的词级时间信息。
在训练过程中，随机选择15%的标记，并将其对应的语音片段通过替换为整个语音样本的均值来掩码。
掩码操作在标记级别执行——掩码与一个词或子词对应的整个特征块——因此比随机的时间/频率掩码更具结构性。
该方法与现有的SpecAugment技术（时间扭曲、频率掩码、时间掩码）结合使用，以增强正则化效果。
模型在自注意力模块前使用更深的CNN，并采用联合CTC/注意力损失进行训练。
语义掩码在训练和推理阶段均应用，模型需利用上下文线索重建被掩码的标记。

实验结果

研究问题

RQ1在声学空间中对标记级别进行掩码是否能提升端到端自动语音识别模型的语言建模能力？
RQ2与随机掩码（如SpecAugment）相比，语义掩码在WER降低和模型泛化方面表现如何？
RQ3语义掩码是否在噪声较大或分布外的测试集（如Librispeech test-other或TED-LIUM2）上带来更大收益？
RQ4语义掩码能否与SpecAugment及其他数据增强技术有效结合？
RQ5当不使用外部语言模型时，模型性能是否更受益于语义掩码？

主要发现

在Librispeech 960h数据集上，采用语义掩码的模型在test-clean上的WER达到3.32%，在test-other上的WER为10.20%，相较于基线端到端模型相对提升了10%。
语义掩码与SpecAugment结合使用时，相比仅使用SpecAugment，test-clean的WER降低了0.32，test-other的WER降低了0.25。
在TED-LIUM2数据集上，该方法相比基线模型实现了相对4.5%的WER降低，证实其在较小、更嘈杂数据集上的有效性。
该模型在Librispeech test-clean上超越了报告的最优端到端自动语音识别系统，在仅使用端到端设置下达到了当前最优性能。
当使用语义掩码时，采用外部语言模型融合与不融合的模型之间性能差距更大，证实了其在增强内在语言建模能力方面的作用。
消融实验表明，词级掩码始终优于时间级掩码，且结合两种策略可获得最佳结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。