QUICK REVIEW

[论文解读] Unsupervised pre-training for sequence to sequence speech recognition

Zhiyun Fan, Shiyu Zhou|arXiv (Cornell University)|Oct 28, 2019

Speech Recognition and Synthesis参考文献 23被引用 20

一句话总结

该论文提出了一种两阶段无监督预训练方法，用于序列到序列的语音识别模型，利用未配对的语音和文本数据。首先，通过预测上下文中的掩码语音特征块，在无标签语音数据上预训练编码器；其次，利用TTS系统从转录文本生成合成语音，对解码器进行预训练。该方法在AISHELL-1上实现了78.8%的相对字符错误率（CER）降低，在HKUST上实现了90.0%的降低，且在低资源和跨语言设置下均表现出一致的性能提升。

ABSTRACT

This paper proposes a novel approach to pre-train encoder-decoder sequence-to-sequence (seq2seq) model with unpaired speech and transcripts respectively. Our pre-training method is divided into two stages, named acoustic pre-trianing and linguistic pre-training. In the acoustic pre-training stage, we use a large amount of speech to pre-train the encoder by predicting masked speech feature chunks with its context. In the linguistic pre-training stage, we generate synthesized speech from a large number of transcripts using a single-speaker text to speech (TTS) system, and use the synthesized paired data to pre-train decoder. This two-stage pre-training method integrates rich acoustic and linguistic knowledge into seq2seq model, which will benefit downstream automatic speech recognition (ASR) tasks. The unsupervised pre-training is finished on AISHELL-2 dataset and we apply the pre-trained model to multiple paired data ratios of AISHELL-1 and HKUST. We obtain relative character error rate reduction (CERR) from 38.24% to 7.88% on AISHELL-1 and from 12.00% to 1.20% on HKUST. Besides, we apply our pretrained model to a cross-lingual case with CALLHOME dataset. For all six languages in CALLHOME dataset, our pre-training method makes model outperform baseline consistently.

研究动机与目标

通过利用未配对的语音和文本数据，减少端到端自动语音识别（ASR）对昂贵的监督语音-转录对的依赖。
在配对训练数据稀缺的低资源ASR场景中提升模型性能。
探究在存在领域或语言差异的情况下，对未配对数据进行无监督预训练是否能提升下游ASR性能。
研究在序列到序列框架中，声学预训练和语言学预训练阶段各自的贡献。

提出的方法

在大规模无标签语音数据上，使用掩码语音特征预测目标对编码器进行预训练，其中连续的语音片段被掩码，并从上下文预测。
使用单说话人文本到语音（TTS）系统，从大规模转录文本语料中生成合成语音，以构建用于解码器预训练的配对数据。
使用合成配对数据对解码器进行预训练，使其学习语言结构和对齐方式，尽管其语音质量单调。
通过在有限的配对数据上进行微调，将两阶段预训练模型应用于下游ASR任务，采用基于Transformer的编码器-解码器架构。
通过消融研究分离声学预训练（在语音上）和语言学预训练（在TTS生成的语音上）的贡献。
在域内、域外和跨语言设置下评估性能，以评估模型的鲁棒性和可迁移性。

实验结果

研究问题

RQ1当配对数据有限时，对未配对语音和文本进行无监督预训练是否能提升序列到序列ASR的性能？
RQ2在掩码语音特征上预训练编码器是否能提升下游ASR的准确率？
RQ3尽管语音质量单调，是否可以通过从转录文本生成的TTS语音对解码器进行预训练来提升模型性能？
RQ4在不同数量的域内配对数据下，声学预训练和语言学预训练阶段的有效性如何比较？
RQ5该预训练模型是否能泛化到域外或跨语言的ASR任务？

主要发现

所提出的两阶段无监督预训练方法在AISHELL-1上将相对字符错误率（CERR）降低了78.8%，从38.24%降至7.88%。
在HKUST数据集上，该方法将CERR降低了90.0%，从12.00%降至1.20%，表明在低资源设置下表现强劲。
消融研究显示，声学预训练和语言学预训练均能独立提升性能，尤其在配对数据稀缺时（如10小时），语言学预训练效果更显著。
当预训练数据与域内数据存在领域差异时，声学预训练比语言学预训练带来更大的收益，尤其是在数据量较大的情况下。
该方法在跨语言设置下具有良好的泛化能力：在CALLHOME数据集的全部六种语言中，使用预训练权重初始化的模型均能收敛，并优于随机初始化。
预训练模型收敛速度优于随机初始化基线模型，且在有限域内数据条件下，性能接近监督预训练基线模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。