QUICK REVIEW

[论文解读] Multilingual Training and Cross-lingual Adaptation on CTC-based Acoustic Model

Sibo Tong, Philip N. Garner|arXiv (Cornell University)|Nov 27, 2017

Speech Recognition and Synthesis参考文献 26被引用 29

一句话总结

本文提出一种基于多语言 CTC 的声学模型，采用通用 IPA 音素集以提升低资源语音识别性能。通过在语言自适应训练中应用 LHUC，并在跨语言适应过程中使用 dropout，该模型在仅 21 小时数据下即可达到与 DNN/HMM 系统相当的性能，展现出强大的泛化能力及对新音素的可扩展性。

ABSTRACT

Multilingual models for Automatic Speech Recognition (ASR) are attractive as they have been shown to benefit from more training data, and better lend themselves to adaptation to under-resourced languages. However, initialisation from monolingual context-dependent models leads to an explosion of context-dependent states. Connectionist Temporal Classification (CTC) is a potential solution to this as it performs well with monophone labels. We investigate multilingual CTC in the context of adaptation and regularisation techniques that have been shown to be beneficial in more conventional contexts. The multilingual model is trained to model a universal International Phonetic Alphabet (IPA)-based phone set using the CTC loss function. Learning Hidden Unit Contribution (LHUC) is investigated to perform language adaptive training. In addition, dropout during cross-lingual adaptation is also studied and tested in order to mitigate the overfitting problem. Experiments show that the performance of the universal phoneme-based CTC system can be improved by applying LHUC and it is extensible to new phonemes during cross-lingual adaptation. Updating all the parameters shows consistent improvement on limited data. Applying dropout during adaptation can further improve the system and achieve competitive performance with Deep Neural Network / Hidden Markov Model (DNN/HMM) systems on limited data.

研究动机与目标

通过基于通用音素的多语言 CTC 模型利用多语言数据，以提升低资源语音识别性能。
通过正则化技术缓解在跨语言自适应过程中低数据场景下的过拟合问题。
探究 CTC 模型是否能在无需完整微调的情况下，有效实现跨语言知识迁移。
评估 LHUC 与 dropout 在提升多语言 CTC 模型自适应性能方面的有效性。

提出的方法

在多语言联合数据（如英语、法语、德语、葡萄牙语）上，使用基于通用 IPA 音素集的多语言 CTC 模型进行训练。
应用隐藏单元贡献学习（LHUC）通过按语言缩放隐藏单元贡献，实现模型对目标语言的自适应。
在跨语言自适应过程中使用 dropout，以减少在有限目标语言数据上的过拟合。
通过随机初始化未见音素的输出层权重并微调整个网络，扩展输出层。
比较不同自适应策略：仅更新输出层、更新所有参数，以及通过新增音素头扩展网络。
通过在有限数据（1–21 小时）上计算 WER，对比单语言、多语言及自适应 CTC 系统的性能。

实验结果

研究问题

RQ1基于通用 IPA 音素集训练的多语言 CTC 模型，能否有效作为低资源语言跨语言自适应的先验？
RQ2LHUC 是否通过在多语言 CTC 设置中实现隐藏单元贡献的语言特异性缩放，提升自适应性能？
RQ3在自适应过程中使用 dropout 是否能缓解过拟合并提升在有限目标语言数据上的泛化能力？
RQ4与仅微调输出层相比，更新所有网络参数在自适应性能上表现如何？
RQ5该多语言 CTC 模型在预训练未见音素的情况下，可扩展至多大程度？

主要发现

从多语言 CTC 模型进行跨语言自适应，在数据少于 15 小时时显著优于单语言 CTC 训练，10 小时数据下 WER 从超过 50% 降至 12% 以下。
从覆盖 30 个音素的多语言模型（ML-4）自适应得到的西班牙语数据 WER 为 11.2%，而仅覆盖 23 个音素的模型（ML-3）为 11.3%，表明音素覆盖范围提升可改善自适应性能。
在葡萄牙语数据（21 小时）上，自适应过程中应用 dropout 使 WER 从 20.5% 降低至 19.0%，使 CTC 系统接近单语言 DNN/HMM 基线（19.5%）。
在自适应过程中更新所有参数始终优于仅微调输出层，表明共享隐藏层无法像 DNN/HMM 系统那样完全可迁移。
多语言 CTC 模型具备对新音素的可扩展性：对未见音素随机初始化权重并微调整个网络可带来额外性能提升。
在自适应过程中结合 dropout，CTC 模型仅用 21 小时数据即可达到与 DNN/HMM 系统相当的性能——证明当结合恰当自适应技术时，CTC 在数据有限情况下依然有效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。