Skip to main content
QUICK REVIEW

[论文解读] Unsupervised pre-training for sequence to sequence speech recognition

Zhiyun Fan, Shiyu Zhou|arXiv (Cornell University)|Oct 28, 2019
Speech Recognition and Synthesis参考文献 23被引用 20
一句话总结

该论文提出了一种两阶段无监督预训练方法,用于序列到序列的语音识别模型,利用未配对的语音和文本数据。首先,通过预测上下文中的掩码语音特征块,在无标签语音数据上预训练编码器;其次,利用TTS系统从转录文本生成合成语音,对解码器进行预训练。该方法在AISHELL-1上实现了78.8%的相对字符错误率(CER)降低,在HKUST上实现了90.0%的降低,且在低资源和跨语言设置下均表现出一致的性能提升。

ABSTRACT

This paper proposes a novel approach to pre-train encoder-decoder sequence-to-sequence (seq2seq) model with unpaired speech and transcripts respectively. Our pre-training method is divided into two stages, named acoustic pre-trianing and linguistic pre-training. In the acoustic pre-training stage, we use a large amount of speech to pre-train the encoder by predicting masked speech feature chunks with its context. In the linguistic pre-training stage, we generate synthesized speech from a large number of transcripts using a single-speaker text to speech (TTS) system, and use the synthesized paired data to pre-train decoder. This two-stage pre-training method integrates rich acoustic and linguistic knowledge into seq2seq model, which will benefit downstream automatic speech recognition (ASR) tasks. The unsupervised pre-training is finished on AISHELL-2 dataset and we apply the pre-trained model to multiple paired data ratios of AISHELL-1 and HKUST. We obtain relative character error rate reduction (CERR) from 38.24% to 7.88% on AISHELL-1 and from 12.00% to 1.20% on HKUST. Besides, we apply our pretrained model to a cross-lingual case with CALLHOME dataset. For all six languages in CALLHOME dataset, our pre-training method makes model outperform baseline consistently.

研究动机与目标

  • 通过利用未配对的语音和文本数据,减少端到端自动语音识别(ASR)对昂贵的监督语音-转录对的依赖。
  • 在配对训练数据稀缺的低资源ASR场景中提升模型性能。
  • 探究在存在领域或语言差异的情况下,对未配对数据进行无监督预训练是否能提升下游ASR性能。
  • 研究在序列到序列框架中,声学预训练和语言学预训练阶段各自的贡献。

提出的方法

  • 在大规模无标签语音数据上,使用掩码语音特征预测目标对编码器进行预训练,其中连续的语音片段被掩码,并从上下文预测。
  • 使用单说话人文本到语音(TTS)系统,从大规模转录文本语料中生成合成语音,以构建用于解码器预训练的配对数据。
  • 使用合成配对数据对解码器进行预训练,使其学习语言结构和对齐方式,尽管其语音质量单调。
  • 通过在有限的配对数据上进行微调,将两阶段预训练模型应用于下游ASR任务,采用基于Transformer的编码器-解码器架构。
  • 通过消融研究分离声学预训练(在语音上)和语言学预训练(在TTS生成的语音上)的贡献。
  • 在域内、域外和跨语言设置下评估性能,以评估模型的鲁棒性和可迁移性。

实验结果

研究问题

  • RQ1当配对数据有限时,对未配对语音和文本进行无监督预训练是否能提升序列到序列ASR的性能?
  • RQ2在掩码语音特征上预训练编码器是否能提升下游ASR的准确率?
  • RQ3尽管语音质量单调,是否可以通过从转录文本生成的TTS语音对解码器进行预训练来提升模型性能?
  • RQ4在不同数量的域内配对数据下,声学预训练和语言学预训练阶段的有效性如何比较?
  • RQ5该预训练模型是否能泛化到域外或跨语言的ASR任务?

主要发现

  • 所提出的两阶段无监督预训练方法在AISHELL-1上将相对字符错误率(CERR)降低了78.8%,从38.24%降至7.88%。
  • 在HKUST数据集上,该方法将CERR降低了90.0%,从12.00%降至1.20%,表明在低资源设置下表现强劲。
  • 消融研究显示,声学预训练和语言学预训练均能独立提升性能,尤其在配对数据稀缺时(如10小时),语言学预训练效果更显著。
  • 当预训练数据与域内数据存在领域差异时,声学预训练比语言学预训练带来更大的收益,尤其是在数据量较大的情况下。
  • 该方法在跨语言设置下具有良好的泛化能力:在CALLHOME数据集的全部六种语言中,使用预训练权重初始化的模型均能收敛,并优于随机初始化。
  • 预训练模型收敛速度优于随机初始化基线模型,且在有限域内数据条件下,性能接近监督预训练基线模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。