[論文レビュー] AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model
AlexaTM 20B は denoising と CLM で事前学習した 20B の多言語 seq2seq モデルで、強力な few-shot 学習を示し、要約、機械翻訳、および多言語NLPタスクで、より大きなデコーダ専用モデルを上回ります。
In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20 billion parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B) and show that it achieves state-of-the-art (SOTA) performance on 1-shot summarization tasks, outperforming a much larger 540B PaLM decoder model. AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for low-resource languages, across almost all language pairs supported by the model (Arabic, English, French, German, Hindi, Italian, Japanese, Marathi, Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2 datasets and provides SOTA performance on multilingual tasks such as XNLI, XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case for seq2seq models as a powerful alternative to decoder-only models for Large-scale Language Model (LLM) training.
研究の動機と目的
- コンテキスト内学習を少数ショットで可能にする、最大規模の多言語 seq2seq モデルの動機づけと構築。
- 要約のような長い文脈タスクで、seq2seq モデルが大きなデコーダ専用 LLM を上回ることを示す。
- 多くの言語、特に低リソース言語での翻訳において、ワンショットおよびゼロショット性能を示す。
- ゼロショットの多言語NLPタスクを評価し、従来のSOTAモデルと比較する。
- モデルに関連するリスクを理解するため、記憶保持、フェアネス、バイアスを評価する。
提案手法
- 12 言語にわたる denoising と因果言語モデル(CLM)タスクを混在させて AlexaTM 20B を事前学習する。
- 大規模での安定性を高めるため、Pre-LN を備えた標準の Transformer アーキテクチャを使用する。
- Wikipedia と mC4 データを用いて1兆トークンのアップデートで訓練し、1024トークンのシーケンスと150K の unigram SentencePiece トークナイザーを使用する。
- 入力の継続を可能にする特別な [CLM] トークンを用いた CLM 目的を取り入れる。
- 初期化のために事前学習済みの 10B エンコーダを活用し、拡張分散訓練には DeepSpeed ZeRO-3 を使用する。
- denoising と CLM モードを通じたインコンテキスト学習を用い、デコーダーアテンションのために複数のショットをエンコードする Fusion-in-Decoder (FiD) を含む。」],
- research_questions1:
- 研究質問と回答
- research_questions_eight:
- 以下は多言語NLPタスクに対する研究質問のリストです。
- research_questions: ["Can a large-scale multilingual seq2seq model provide effective few-shot learning across generative NLP tasks?", "How does a multilingual seq2seq model compare to larger decoder-only LLMs on long-context tasks like summarization and cross-lingual translation?", "What are the zero-shot capabilities of AlexaTM 20B on standard multilingual NLP benchmarks and English tasks, relative to existing SOTA models?", "Does seq2seq pre-training in a multilingual setting improve translation quality for low-resource languages?", "What are the memorization, fairness, and bias characteristics of a 20B multilingual seq2seq model?"]
- research_questions_headers:[]
- research_questions: ["Can a large-scale multilingual seq2seq model provide effective few-shot learning across generative NLP tasks?", "How does a multilingual seq2seq model compare to larger decoder-only LLMs on long-context tasks like summarization and cross-lingual translation?", "What are the zero-shot capabilities of AlexaTM 20B on standard multilingual NLP benchmarks and English tasks, relative to existing SOTA models?", "Does seq2seq pre-training in a multilingual setting improve translation quality for low-resource languages?", "What are the memorization, fairness, and bias characteristics of a 20B multilingual seq2seq model?"]
- research_questions_extra:
実験結果
リサーチクエスチョン
- RQ1大規模な多言語 seq2seq モデルは生成型NLPタスク全般で効果的な few-shot 学習を提供できるか?
- RQ2要約やクロスリンガル翻訳のような長文脈タスクで、多言語 seq2seq モデルは大規模なデコーダ専用 LLM とどう比較されるか?
- RQ3標準的な多言語NLPベンチマークや英語タスクにおける AlexaTM 20B のゼロショット能力は、既存の SOTA モデルと比較してどうか?
- RQ4多言語設定での seq2seq 事前学習は低リソース言語の翻訳品質を改善するか?
- RQ520B の多言語 seq2seq モデルの記憶保持、フェアネス、およびバイアスの特性はどのようか?
主な発見
- AlexaTM 20B は 1-shot 要約で SOTA を達成し、XSUM および MLSUM データセットで 540B PaLM デコーダモデルを上回る。
- AlexaTM 20B は Flores-101 言語ペア全体で 1-shot 機械翻訳の SOTA を達成し、マラーティー語、タミル語、テルグ語で顕著な改善を示す。
- ゼロショット設定で、AlexaTM 20B は SuperGLUE と SQuADv2 で GPT-3 (175B) を上回り、XNLI、XCOPA、Paws-X、XWinograd などの多言語タスクで SOTA を達成。
- 多言語NLPタスク全般で、AlexaTM 20B は強力なゼロショット性能を示し、しばしばいくつかのベンチマークで XGLM 7.5B を上回る。
- 英語タスクでは AlexaTM 20B は GPT-3 175B を上回り、SQuADv2 およびほとんどの SuperGLUE タスクで PaLM 540B と競合する一方、最大のデコーダ専用モデルよりもパラメータ数が少ない。
- 記憶保持の分析は長い文脈での記憶保持の低下を示唆し、バイアス/毒性の分析はゼロショットで Winogender で最先端の結果を示し、毒性はプロンプト内容に影響を受ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。