QUICK REVIEW

[论文解读] Multilingual Speech Translation with Efficient Finetuning of Pretrained Models

Xian Li, Changhan Wang|arXiv (Cornell University)|Oct 24, 2020

Natural Language Processing Techniques参考文献 46被引用 27

一句话总结

本文提出了一种参数和数据高效的多语言语音到文本翻译方法，仅微调预训练wav2vec 2.0和mBART模型中的LayerNorm与Attention（LNA）参数。该方法在CoVoST 2和Europarl基准上取得了最先进结果，在En-X方向平均提升+6.4 BLEU，在X-En方向提升+5.1 BLEU，同时仅训练10%–50%的参数，并实现了强大的零样本跨语言和跨模态迁移能力。

ABSTRACT

We present a simple yet effective approach to build multilingual speech-to-text (ST) translation by efficient transfer learning from pretrained speech encoder and text decoder. Our key finding is that a minimalistic LNA (LayerNorm and Attention) finetuning can achieve zero-shot crosslingual and cross-modality transfer ability by only finetuning less than 10% of the pretrained parameters. This enables effectively leveraging large pretrained models with low training cost. Using wav2vec 2.0 for acoustic modeling, and mBART for multilingual text generation, our approach advanced the new state-of-the-art for 34 translation directions (and surpassing cascaded ST for 23 of them) on large-scale multilingual ST benchmark CoVoST 2 (+6.4 BLEU on average across 15 En-X directions and +5.1 BLEU on average across 19 X-En directions). Our approach demonstrates strong zero-shot performance in a many-to-many multilingual model (+5.7 BLEU on average across 18 non-English directions), making it an appealing approach for attaining high-quality speech translation with improved parameter and data efficiency.

研究动机与目标

通过最小化大型预训练模型的微调量，实现高质量的多语言语音到文本翻译。
通过利用零样本跨语言和跨模态迁移，缓解低资源翻译方向的数据稀缺问题。
在不修改网络架构的前提下，提升端到端语音翻译的参数和数据效率。
在所有方向均无平行数据的情况下，展示强大的多对多多语言翻译零样本性能。
建立一种简单而有效的迁移学习框架，结合预训练语音模型和多语言文本模型。

提出的方法

该方法结合了用于语音表征的预训练wav2vec 2.0编码器和用于文本生成的多语言mBART解码器。
通过一个轻量级的长度适配器（采用步长卷积的1D卷积）解决音频与文本表征之间的序列长度不匹配问题。
仅微调LayerNorm和Attention（LNA）参数——占总参数量的10%以下——从而实现高效率。
在语音到文本翻译和文本到文本翻译任务上进行联合微调，提升了整体性能。
该方法支持零样本跨语言迁移（例如：在A→B上训练，在A→C上测试）和零样本多语言迁移（例如：在A→B和B→C上训练，在A→C上测试）。
模型采用端到端方式训练，使用交叉熵损失进行序列到序列生成，仅使用预训练模型中的LNA组件。

实验结果

研究问题

RQ1仅微调预训练模型中极小部分参数（如LayerNorm和Attention）是否能在多语言语音翻译中实现优异性能？
RQ2该方法在无目标语言对平行数据的情况下，能在多大程度上实现零样本跨语言迁移？
RQ3在语音到文本翻译和文本到文本翻译任务上进行联合微调，对整体性能有何影响？
RQ4该方法是否能在保持高参数和数据效率的同时实现最先进性能？
RQ5该方法是否能有效泛化到无所有方向平行数据的多对多多语言翻译任务？

主要发现

所提出的LNA微调策略在CoVoST 2的15个英语到X语言翻译方向上平均提升+6.4 BLEU，在19个X语言到英语方向上提升+5.1 BLEU，超越了以往的端到端模型。
该方法在CoVoST 2的34个翻译方向上均达到新的最先进水平，平均提升高达+6.4 BLEU。
在Europarl基准上，零样本多语言多对多模型在18个非英语方向上平均提升+5.7 BLEU，优于在1.6倍更多数据上训练的模型。
仅微调10%–50%的参数（具体为LNA组件）即可达到与全量微调相当的性能，证明了极高的参数效率。
该模型展现出强大的零样本跨语言迁移能力，无需额外微调即可泛化到未见过的语言对。
消融实验证实，仅微调LayerNorm和Attention参数（LNA）已足够实现高性能，对困惑度影响极小，同时BLEU得分大幅提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。