[論文レビュー] mT5: A massively multilingual pre-trained text-to-text transformer
mT5 は T5 を 101 言語へ拡張し、mC4 という多言語プリトレーニングデータセットを用いて、多言語ベンチマークで最先端の結果を示す。ゼロショット生成における偶発的翻訳を、ドメインを保つファインチューニング技法で対処する。
The recent "Text-to-Text Transfer Transformer" (T5) leveraged a unified text-to-text format and scale to attain state-of-the-art results on a wide variety of English-language NLP tasks. In this paper, we introduce mT5, a multilingual variant of T5 that was pre-trained on a new Common Crawl-based dataset covering 101 languages. We detail the design and modified training of mT5 and demonstrate its state-of-the-art performance on many multilingual benchmarks. We also describe a simple technique to prevent "accidental translation" in the zero-shot setting, where a generative model chooses to (partially) translate its prediction into the wrong language. All of the code and model checkpoints used in this work are publicly available.
研究の動機と目的
- 元のレシピから最小限の逸脱で、T5 の大規模な多言語版を開発する。
- Common Crawl データから 101 言語をカバーする多言語プリトレーニングデータセット(mC4)を作成する。
- 分類、QA、NER の xtreme 多言語ベンチマークで mT5 を評価する。
- ドメインを保持したファインチューニングを通じて、ゼロショット生成における偶発的翻訳を調査・緩和する。
- コミュニティへオープンソースのコードと事前学習済みチェックポイントを提供する。
提案手法
- T5.1.1 レシピを拡張する(GeGLU 活性化、より大きい d_model と d_ff、プリトレーニング時のドロップアウトなし)。
- Common Crawl データを言語検出とフィルタリングを用いて mC4 を構築し、70% の信頼度閾値と各言語で 10,000ページ以上を含む 101 言語を含む。
- プリトレーニング中に p(L) ∝ |L|^α に基づく多言語データをサンプリングして低資源言語を強化する(α は 0.3 に調整) 。
- 言語固有のカバレッジと大規模スクリプトのためのバイトフォールバックを備えた 250k SentencePiece vocabulary を使用。
- すべてのタスクを text-to-text フォーマットにキャストして、xtreme タスク全体をファインチューニングと評価する。ゼロショット、Translate-Train、在言語マルチタスク設定を検討。
- ゼロショットの偶発的翻訳に対処するため、ドメイン適応型プリトレーニング(ファインチューニング時に mC4 を混合)と言語サンプリングのバイアス低減(α を 0.1 に低下)を行う。
実験結果
リサーチクエスチョン
- RQ1広範な多言語コーパスで学習した T5 型の多言語モデルは、多くの言語で最先端の結果を達成できるのか?
- RQ2モデル容量はクロスリンガル転移と翻訳データまたは在言語データの必要性にどう影響するのか?
- RQ3ゼロショット生成で偶発的翻訳を引き起こす機構は何か、そしてファインチューニングに混合した多言語プリトレーニングデータはそれを緩和できるか?
- RQ4プリトレーニング時の言語サンプリングは高資源言語と低資源言語のパフォーマンスにどう影響するか?
主な発見
- mT5-XXL は分類と QA ベンチマークで最先端の結果を達成し、NER では SOTA に接近している。
- xtreme Task では translate-train を用いた mT5 が従来モデルを上回り、ゼロショットの性能はモデルサイズが大きくなるにつれて translate-train に近づく。
- より大きい mT5 モデルは SQuAD で English-only T5 とのギャップを縮め、容量がクロスリンガル干渉を緩和できることを示している。
- 小量の多言語プリトレーニングデータをファインチューニングに混ぜると、特に小型モデルのゼロショット XQuAD で違法/偶発的翻訳予測を著しく低減する。
- データ収集時の行長フィルタリングは XNLI の精度を有意に向上させ、消去実験で +2 ポイント。
- α を増やして高資源言語を強化すると一部言語には有利だが多くの低資源言語には不利になる;α をほぼ均一に近づけて低下を抑えるとこのバイアスを減らせる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。