[论文解读] Unsupervised pre-training for sequence to sequence speech recognition
该论文提出了一种两阶段无监督预训练方法,用于序列到序列的语音识别模型,利用未配对的语音和文本数据。首先,通过预测上下文中的掩码语音特征块,在无标签语音数据上预训练编码器;其次,利用TTS系统从转录文本生成合成语音,对解码器进行预训练。该方法在AISHELL-1上实现了78.8%的相对字符错误率(CER)降低,在HKUST上实现了90.0%的降低,且在低资源和跨语言设置下均表现出一致的性能提升。
This paper proposes a novel approach to pre-train encoder-decoder sequence-to-sequence (seq2seq) model with unpaired speech and transcripts respectively. Our pre-training method is divided into two stages, named acoustic pre-trianing and linguistic pre-training. In the acoustic pre-training stage, we use a large amount of speech to pre-train the encoder by predicting masked speech feature chunks with its context. In the linguistic pre-training stage, we generate synthesized speech from a large number of transcripts using a single-speaker text to speech (TTS) system, and use the synthesized paired data to pre-train decoder. This two-stage pre-training method integrates rich acoustic and linguistic knowledge into seq2seq model, which will benefit downstream automatic speech recognition (ASR) tasks. The unsupervised pre-training is finished on AISHELL-2 dataset and we apply the pre-trained model to multiple paired data ratios of AISHELL-1 and HKUST. We obtain relative character error rate reduction (CERR) from 38.24% to 7.88% on AISHELL-1 and from 12.00% to 1.20% on HKUST. Besides, we apply our pretrained model to a cross-lingual case with CALLHOME dataset. For all six languages in CALLHOME dataset, our pre-training method makes model outperform baseline consistently.
研究动机与目标
- 通过利用未配对的语音和文本数据,减少端到端自动语音识别(ASR)对昂贵的监督语音-转录对的依赖。
- 在配对训练数据稀缺的低资源ASR场景中提升模型性能。
- 探究在存在领域或语言差异的情况下,对未配对数据进行无监督预训练是否能提升下游ASR性能。
- 研究在序列到序列框架中,声学预训练和语言学预训练阶段各自的贡献。
提出的方法
- 在大规模无标签语音数据上,使用掩码语音特征预测目标对编码器进行预训练,其中连续的语音片段被掩码,并从上下文预测。
- 使用单说话人文本到语音(TTS)系统,从大规模转录文本语料中生成合成语音,以构建用于解码器预训练的配对数据。
- 使用合成配对数据对解码器进行预训练,使其学习语言结构和对齐方式,尽管其语音质量单调。
- 通过在有限的配对数据上进行微调,将两阶段预训练模型应用于下游ASR任务,采用基于Transformer的编码器-解码器架构。
- 通过消融研究分离声学预训练(在语音上)和语言学预训练(在TTS生成的语音上)的贡献。
- 在域内、域外和跨语言设置下评估性能,以评估模型的鲁棒性和可迁移性。
实验结果
研究问题
- RQ1当配对数据有限时,对未配对语音和文本进行无监督预训练是否能提升序列到序列ASR的性能?
- RQ2在掩码语音特征上预训练编码器是否能提升下游ASR的准确率?
- RQ3尽管语音质量单调,是否可以通过从转录文本生成的TTS语音对解码器进行预训练来提升模型性能?
- RQ4在不同数量的域内配对数据下,声学预训练和语言学预训练阶段的有效性如何比较?
- RQ5该预训练模型是否能泛化到域外或跨语言的ASR任务?
主要发现
- 所提出的两阶段无监督预训练方法在AISHELL-1上将相对字符错误率(CERR)降低了78.8%,从38.24%降至7.88%。
- 在HKUST数据集上,该方法将CERR降低了90.0%,从12.00%降至1.20%,表明在低资源设置下表现强劲。
- 消融研究显示,声学预训练和语言学预训练均能独立提升性能,尤其在配对数据稀缺时(如10小时),语言学预训练效果更显著。
- 当预训练数据与域内数据存在领域差异时,声学预训练比语言学预训练带来更大的收益,尤其是在数据量较大的情况下。
- 该方法在跨语言设置下具有良好的泛化能力:在CALLHOME数据集的全部六种语言中,使用预训练权重初始化的模型均能收敛,并优于随机初始化。
- 预训练模型收敛速度优于随机初始化基线模型,且在有限域内数据条件下,性能接近监督预训练基线模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。