QUICK REVIEW

[論文レビュー] CoVoST 2 and Massively Multilingual Speech-to-Text Translation

Changhan Wang, Anne Wu|arXiv (Cornell University)|Jul 20, 2020

Natural Language Processing Techniques参考文献 22被引用数 44

ひとこと要約

CoVoST 2 は、21 言語から英語への大規模な多言語音声から文字への翻訳コーパスをリリースし、英語から 15 言語へも対応するほか、広範な多言語 ASR、MT、ST のベースラインを提供します。これにより、巨大な多言語 ST および低資源言語ペアの研究が可能になります。

ABSTRACT

Speech translation has recently become an increasingly popular topic of research, partly due to the development of benchmark datasets. Nevertheless, current datasets cover a limited number of languages. With the aim to foster research in massive multilingual speech translation and speech translation for low resource language pairs, we release CoVoST 2, a large-scale multilingual speech translation corpus covering translations from 21 languages into English and from English into 15 languages. This represents the largest open dataset available to date from total volume and language coverage perspective. Data sanity checks provide evidence about the quality of the data, which is released under CC0 license. We also provide extensive speech recognition, bilingual and multilingual machine translation and speech translation baselines with open-source implementation.

研究の動機と目的

幅広い言語カバレッジを備えた大規模で多様なデータセットを提供することにより、多言語 ST 研究を促進する。
低資源言語ペアや多対一/多対多の ST タスクの研究を可能にする。
将来の研究を評価するための ASR、MT、および ST（単言語、二言語、多言語）のベースラインを提供する。

提案手法

CoVoST を 21 言語から英語へ、及び 15 言語から英語へ拡張し、総時間を 2880 時間、話者数を 78K に増やす。
専門の翻訳者を介して翻訳を収集し、言語モデルのパープレキシティ、LASER スコア、長さ比ヒューリスティックを用いた品質の整合性チェックを実施する。
ASR および ST には 12 層のエンコーダと 6 層のデコーダを持つエンコーダ–デコーダー Transformer アーキテクチャを使用する；音声入力に 3/4 ダウンサンプラーを適用し、多言語デコードのためのターゲット言語 ID トークンを使用する。
バイリンガル MT と 3 つの ST ベースラインを提供する（C-ST、英語 ST はゼロから訓練、英語 ST は英語 ASR で事前訓練）、さらにエンコーダ/デコーダーを共有する多言語バリアント。
非英語の ASR およびバイリンガル ST エンコーダを英語 ASR の事前訓練で事前訓練し、多言語訓練を加速させる。

実験結果

リサーチクエスチョン

RQ1言語カバレッジ、データ量、話者の多様性という観点で、CoVoST 2 は多言語 ST データをどのように拡張しますか。
RQ2英語への 21 言語および英語から 15 言語に対して、ASR、MT、ST の単言語/二言語/多言語ベースラインはどれだけ達成可能ですか。
RQ3低資源方向で多言語モデルは ST の性能を向上させますか、逆方向のデータが性能にどのように影響しますか（例: +Rev 実験）？

主な発見

CoVoST 2 は、CC0 の下で 2880 時間の音声と 78K 話者を含む 21 言語から英語への翻訳と 15 言語から英語への翻訳を提供します。
ベースラインの結果は、言語資源レベルによって性能が変動することを示し、低資源方向は逆方向のデータと多言語訓練の恩恵を受ける。
多言語モデリングは低資源 ST の改善に有望で、A2E、E2A、A2A のさまざまな構成が検討された。
本論文は、エンコーダの多言語事前訓練を活用することが多い、連結型 ST やエンドツーエンド ST の variants を含む、広範な ASR、MT、ST ベースラインを報告している。
すべてのデータと訓練レシピは、さらなる研究を促進するために公開されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。