[論文レビュー] DeltaLM: Encoder-Decoder Pre-training for Language Generation and Translation by Augmenting Pretrained Multilingual Encoders
ΔLM は、事前学習済みの多言語エンコーダを再利用して、エンコーダ-デコーダモデルのエンコーダとデコーダの両方を初期化し、単言語データと二言語データに対するスパン破損および翻訳スパン破損で事前学習を行い、多言語生成と翻訳を改善する。
While pretrained encoders have achieved success in various natural language understanding (NLU) tasks, there is a gap between these pretrained encoders and natural language generation (NLG). NLG tasks are often based on the encoder-decoder framework, where the pretrained encoders can only benefit part of it. To reduce this gap, we introduce DeltaLM, a pretrained multilingual encoder-decoder model that regards the decoder as the task layer of off-the-shelf pretrained encoders. Specifically, we augment the pretrained multilingual encoder with a decoder and pre-train it in a self-supervised way. To take advantage of both the large-scale monolingual data and bilingual data, we adopt the span corruption and translation span corruption as the pre-training tasks. Experiments show that DeltaLM outperforms various strong baselines on both natural language generation and translation tasks, including machine translation, abstractive text summarization, data-to-text, and question generation. The code and pretrained models are available at \url{https://aka.ms/deltalm}.
研究の動機と目的
- エンコーダ-デコーダフレームワークに依存する自然言語生成(NLG)タスクと、事前学習済みエンコーダ間のギャップを埋める動機づけ。
- エンコーダ-デコーダモデルのエンコーダとデコーダの両方を初期化するために、事前学習済みの多言語エンコーダを再利用する方法を提案する。
- 特化した事前学習タスクを通じて、大規模な単言語・二言語データを活用し、クロスリンガル転送を向上させる。
- NLG、MT、要約、データからテキストへの変換、質問生成を含む多言語生成と翻訳のベンチマークで有効性を示す。
提案手法
- 強力な多言語エンコーダ(InfoXLM)から、事前学習済みの多言語エンコーダ-デコーダモデルのエンコーダとデコーダの両方を初期化する。
- エンコーダの構造と整合させ、事前学習済み重みを完全に再利用可能にするため、インタリーブされたTransformerデコーダを導入する。
- クロスリンガル転送性を維持するために、多言語データでスパン破損を用いて事前学習を行う。
- 二言語平行データを用いた翻訳スパン破損でクロスリンガル転送を強化する。
- 360Mパラメータのベースモデルを用い、6TBの多言語コーパス(100言語)と88GBの二言語データ(77言語)を使用する。
- 標準の最適化と評価設定で下流タスクに微調整し、微調整時に混合事前学習目的を用いたゼロショット転送実験を実施する。
実験結果
リサーチクエスチョン
- RQ1ΔLM が事前学習済みの多言語エンコーダを再利用してエンコーダ-デコーダモデルを初期化することは、NLG および翻訳タスクを改善するか?
- RQ2インタリーブ型デコーダは、事前学習済みエンコーダの重みを完全に活用したクロスリンガル生成を可能にするか?
- RQ3スパン破損と翻訳スパン破損タスクは、単言語データおよび二言語データを効果的に活用して多言語NLGとMTを実現するか?
- RQ4ΔLM は強力なベースラインと比較して、多言語生成、クロスリンガル生成、ゼロショット転送でどう performance するか?
主な発見
- ΔLM は 360M パラメータで XLM と XNLG を XQG-Zh および XGiga-Fr で BLEU、METEOR、ROUGE-L の指標で上回る。
- ΔLM は X→En テストセットで多言語 NMT ベースラインより平均 BLEU が +2.7、En→X より +1.3 を達成。
- ΔLM は 10 言語において X→En および En→X 方向で、より少ないパラメータで mBART および M2M-100 を上回る。
- クロスリンガル要約とデータからテキストへの変換では、ΔLM は mBART や mT5 などのベースラインと同等またはそれを上回り、パラメータ効率も高い(360M 対 一部ベースラインの最大3.7B など)。
- XGiga のゼロショットクロスリンガル転送では、フランス語と中国語のテストセットで ΔLM が XLM、XLM+MT、XNLG を著しく上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。