Skip to main content
QUICK REVIEW

[论文解读] CoVoST 2 and Massively Multilingual Speech-to-Text Translation

Changhan Wang, Anne Wu|arXiv (Cornell University)|Jul 20, 2020
Natural Language Processing Techniques参考文献 22被引用 44
一句话总结

CoVoST 2 发布了一个大规模多语言语音转文本翻译语料库,提供 21 种语言翻译成英语以及英语翻译成 15 种语言,外加广泛的多语言 ASR、MT 和 ST 基线。它为大规模多语言 ST 和低资源语言对的研究提供了可能。

ABSTRACT

Speech translation has recently become an increasingly popular topic of research, partly due to the development of benchmark datasets. Nevertheless, current datasets cover a limited number of languages. With the aim to foster research in massive multilingual speech translation and speech translation for low resource language pairs, we release CoVoST 2, a large-scale multilingual speech translation corpus covering translations from 21 languages into English and from English into 15 languages. This represents the largest open dataset available to date from total volume and language coverage perspective. Data sanity checks provide evidence about the quality of the data, which is released under CC0 license. We also provide extensive speech recognition, bilingual and multilingual machine translation and speech translation baselines with open-source implementation.

研究动机与目标

  • 通过提供覆盖广泛语言、规模大、多样性丰富的数据集来促进多语言 ST 研究。
  • 推动低资源语言对以及一对多/多对多 ST 任务的研究。
  • 提供 ASR、MT 和 ST(单语、双语、多人语言)基线,以便对未来工作进行基准评估。

提出的方法

  • 将 CoVoST 扩展至 21 种语言翻译成英语以及 15 种语言从英语翻译,总时长增至 2880 小时,说话人数量增至 78K。
  • 通过专业翻译人员收集翻译,并使用语言模型困惑度、LASER 分数和长度比启发式方法进行质量一致性检查。
  • 对 ASR 和 ST 使用具 12 层编码器和 6 层解码器的编码-解码 Transformer 架构;对语音输入应用 3/4 降采样器,并在多语言解码中使用目标语言 ID 标记。
  • 提供双语 MT 和三种 ST 基线(C-ST、从头训练的 E-ST,以及在英语 ASR 上预训练的 E-ST),以及具有共享编码器/解码器的多语言变体。
  • 在英语 ASR 上对非英语 ASR 和双语 ST 编码器进行预训练以加速多语言训练。

实验结果

研究问题

  • RQ1CoVoST 2 在语言覆盖、数据量和说话人多样性方面如何扩展多语言 ST 数据?
  • RQ2在 21 种语言到英语和 15 种语言从英语的场景下,ASR、MT 和 ST 可以达到哪些单语、双语、多人语言基线?
  • RQ3多语言模型是否提升低资源方向的 ST 性能,以及来自相反方向的数据如何影响性能(如 +Rev 实验)?

主要发现

  • CoVoST 2 提供 21 种语言到英语和 15 种语言从英语,总计 2880 小时语音,78K 说话人,且在 CC0 下。
  • 基线结果表明性能随语言资源水平而异;低资源方向从反向方向数据和多语言训练中获益。
  • 多语言建模是提升低资源 ST 的有希望方向,研究了多种 A2E、E2A 和 A2A 配置。
  • 论文报告了广泛的 ASR、MT 和 ST 基线,包括级联 ST 和端到端 ST 变体,常利用编码器的多语言预训练。
  • 所有数据和训练方案均公开发布,以促进进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。