QUICK REVIEW

[論文レビュー] AlexaTM 20B: Few-Shot Learning Using a Large-Scale Multilingual Seq2Seq Model

Saleh Soltan, Shankar Ananthakrishnan|arXiv (Cornell University)|Aug 2, 2022

Topic Modeling被引用数 38

ひとこと要約

AlexaTM 20B は denoising と CLM で事前学習した 20B の多言語 seq2seq モデルで、強力な few-shot 学習を示し、要約、機械翻訳、および多言語NLPタスクで、より大きなデコーダ専用モデルを上回ります。

ABSTRACT

In this work, we demonstrate that multilingual large-scale sequence-to-sequence (seq2seq) models, pre-trained on a mixture of denoising and Causal Language Modeling (CLM) tasks, are more efficient few-shot learners than decoder-only models on various tasks. In particular, we train a 20 billion parameter multilingual seq2seq model called Alexa Teacher Model (AlexaTM 20B) and show that it achieves state-of-the-art (SOTA) performance on 1-shot summarization tasks, outperforming a much larger 540B PaLM decoder model. AlexaTM 20B also achieves SOTA in 1-shot machine translation, especially for low-resource languages, across almost all language pairs supported by the model (Arabic, English, French, German, Hindi, Italian, Japanese, Marathi, Portuguese, Spanish, Tamil, and Telugu) on Flores-101 dataset. We also show in zero-shot setting, AlexaTM 20B outperforms GPT3 (175B) on SuperGLUE and SQuADv2 datasets and provides SOTA performance on multilingual tasks such as XNLI, XCOPA, Paws-X, and XWinograd. Overall, our results present a compelling case for seq2seq models as a powerful alternative to decoder-only models for Large-scale Language Model (LLM) training.

研究の動機と目的

コンテキスト内学習を少数ショットで可能にする、最大規模の多言語 seq2seq モデルの動機づけと構築。
要約のような長い文脈タスクで、seq2seq モデルが大きなデコーダ専用 LLM を上回ることを示す。
多くの言語、特に低リソース言語での翻訳において、ワンショットおよびゼロショット性能を示す。
ゼロショットの多言語NLPタスクを評価し、従来のSOTAモデルと比較する。
モデルに関連するリスクを理解するため、記憶保持、フェアネス、バイアスを評価する。

提案手法

12 言語にわたる denoising と因果言語モデル（CLM）タスクを混在させて AlexaTM 20B を事前学習する。
大規模での安定性を高めるため、Pre-LN を備えた標準の Transformer アーキテクチャを使用する。
Wikipedia と mC4 データを用いて1兆トークンのアップデートで訓練し、1024トークンのシーケンスと150K の unigram SentencePiece トークナイザーを使用する。
入力の継続を可能にする特別な [CLM] トークンを用いた CLM 目的を取り入れる。
初期化のために事前学習済みの 10B エンコーダを活用し、拡張分散訓練には DeepSpeed ZeRO-3 を使用する。
denoising と CLM モードを通じたインコンテキスト学習を用い、デコーダーアテンションのために複数のショットをエンコードする Fusion-in-Decoder (FiD) を含む。」],
research_questions1:
研究質問と回答
research_questions_eight:
以下は多言語NLPタスクに対する研究質問のリストです。
research_questions: ["Can a large-scale multilingual seq2seq model provide effective few-shot learning across generative NLP tasks?", "How does a multilingual seq2seq model compare to larger decoder-only LLMs on long-context tasks like summarization and cross-lingual translation?", "What are the zero-shot capabilities of AlexaTM 20B on standard multilingual NLP benchmarks and English tasks, relative to existing SOTA models?", "Does seq2seq pre-training in a multilingual setting improve translation quality for low-resource languages?", "What are the memorization, fairness, and bias characteristics of a 20B multilingual seq2seq model?"]
research_questions_headers:[]
research_questions: ["Can a large-scale multilingual seq2seq model provide effective few-shot learning across generative NLP tasks?", "How does a multilingual seq2seq model compare to larger decoder-only LLMs on long-context tasks like summarization and cross-lingual translation?", "What are the zero-shot capabilities of AlexaTM 20B on standard multilingual NLP benchmarks and English tasks, relative to existing SOTA models?", "Does seq2seq pre-training in a multilingual setting improve translation quality for low-resource languages?", "What are the memorization, fairness, and bias characteristics of a 20B multilingual seq2seq model?"]
research_questions_extra:

実験結果

リサーチクエスチョン

RQ1大規模な多言語 seq2seq モデルは生成型NLPタスク全般で効果的な few-shot 学習を提供できるか？
RQ2要約やクロスリンガル翻訳のような長文脈タスクで、多言語 seq2seq モデルは大規模なデコーダ専用 LLM とどう比較されるか？
RQ3標準的な多言語NLPベンチマークや英語タスクにおける AlexaTM 20B のゼロショット能力は、既存の SOTA モデルと比較してどうか？
RQ4多言語設定での seq2seq 事前学習は低リソース言語の翻訳品質を改善するか？
RQ520B の多言語 seq2seq モデルの記憶保持、フェアネス、およびバイアスの特性はどのようか？

主な発見

AlexaTM 20B は 1-shot 要約で SOTA を達成し、XSUM および MLSUM データセットで 540B PaLM デコーダモデルを上回る。
AlexaTM 20B は Flores-101 言語ペア全体で 1-shot 機械翻訳の SOTA を達成し、マラーティー語、タミル語、テルグ語で顕著な改善を示す。
ゼロショット設定で、AlexaTM 20B は SuperGLUE と SQuADv2 で GPT-3 (175B) を上回り、XNLI、XCOPA、Paws-X、XWinograd などの多言語タスクで SOTA を達成。
多言語NLPタスク全般で、AlexaTM 20B は強力なゼロショット性能を示し、しばしばいくつかのベンチマークで XGLM 7.5B を上回る。
英語タスクでは AlexaTM 20B は GPT-3 175B を上回り、SQuADv2 およびほとんどの SuperGLUE タスクで PaLM 540B と競合する一方、最大のデコーダ専用モデルよりもパラメータ数が少ない。
記憶保持の分析は長い文脈での記憶保持の低下を示唆し、バイアス/毒性の分析はゼロショットで Winogender で最先端の結果を示し、毒性はプロンプト内容に影響を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。