QUICK REVIEW

[論文レビュー] Few-shot Learning with Multilingual Language Models

Xi Victoria Lin, Todor Mihaylov|arXiv (Cornell University)|Dec 20, 2021

Topic Modeling被引用数 76

ひとこと要約

この論文は、最大75億パラメータの多言語生成言語モデルを、500Bトークン・30言語のコーパスで訓練し、ゼロショットおよび文脈内少数ショット学習を多言語タスク全般で研究します。強力なクロスリンガル prompting を示し、 multilingual モデルによる FLORES-101 の方向で最先端の少数ショット翻訳を実証しつつ、英語の性能は多言語事前訓練によって低下する可能性がある点を指摘します。

ABSTRACT

Large-scale generative language models such as GPT-3 are competitive few-shot learners. While these models are known to be able to jointly represent many different languages, their training data is dominated by English, potentially limiting their cross-lingual generalization. In this work, we train multilingual generative language models on a corpus covering a diverse set of languages, and study their few- and zero-shot learning capabilities in a wide range of tasks. Our largest model with 7.5 billion parameters sets new state of the art in few-shot learning in more than 20 representative languages, outperforming GPT-3 of comparable size in multilingual commonsense reasoning (with +7.4% absolute accuracy improvement in 0-shot settings and +9.4% in 4-shot settings) and natural language inference (+5.4% in each of 0-shot and 4-shot settings). On the FLORES-101 machine translation benchmark, our model outperforms GPT-3 on 171 out of 182 directions with 32 training examples, while surpassing the official supervised baseline in 45 directions. We conduct an in-depth analysis of different multilingual prompting approaches, showing in particular that strong few-shot learning performance across languages can be achieved via cross-lingual transfer through both templates and demonstration examples. Finally, we evaluate our models in social value tasks such as hate speech detection in five languages and find it has limitations similar to comparable sized GPT-3 models.

研究の動機と目的

多言語生成言語モデルを用いたゼロショットおよび文脈内少数ショット学習の調査。
多言語タスクにおけるクロスリンガル prompting とクロスリンガルデモンストレーションの評価。
英語中心のベースラインと比較して、NLP/NLU・翻訳・多言語機械翻訳ベンチマークでの多言語モデルの評価。

提案手法

30言語にまたがる500Bトークンの多言語コーパス（CC100-XL）で、共通の250k SentencePiece語彙を用いて4つのデコーダーだけの因果言語モデル（564M、1.7B、2.9B、7.5B）を訓練する。
パラメータ更新なしのプロンプトを用いたゼロショットおよび少数ショットの性能を、0、1、4、32、128ショット設定で評価する。
母語プロンプト、英語テンプレート、翻訳ベースのプロンプト、クロスリンガル prompting などの prompting 戦略を検討する。
入力文脈に別言語のデモンストレーションを追加して、クロスリンガルデモンストレーションを調査する。
多言語タスクと FLORES-101 MT の方向性で、GPT-3（6.7B）および translation-based baselines（translate-test）と比較する。
モデルサイズとショット数を変化させ、より大きな多言語モデルが文脈内デモンストレーションをどのように活用するかを理解するためのスケーリング法則を分析する。

実験結果

リサーチクエスチョン

RQ1多言語生成言語モデルは、多様な言語のゼロショットおよび文脈内少数ショットタスクでどう性能を発揮するか？
RQ2英語のプロンプトに非英語のデモンストレーションやクロスリンガルプロンプトを組み合わせて、強力な多言語の文脈内学習を達成できるか？
RQ3クロスリンガル prompting とクロスリンガルデモンストレーションは、リソースレベルの異なる言語での性能にどのように影響するか？
RQ4モデルサイズの拡大は多言語少数ショット学習とクロスリンリンガル転移にどのような影響を与えるか？
RQ5多言語モデルは、英語中心モデルと比較して機械翻訳と多言語NLPベンチマークでどの程度の性能を示すか？Translate-testのベースラインはどうか？

主な発見

7.5BパラメータのXGLMモデルは、多言語NLPおよび推論タスクで20言語以上にわたる最先端の少数ショット性能を達成し、0ショットおよび4ショット設定で顕著な改善を示す。
FLORES-101 MTでは、XGLM-7.5B が32件の学習例で182方向中171方向をGPT-3相当より上回り、公式の監視付きベースラインを45方向で上回る。
英語テンプレートを用いたクロスリンガル prompting は、言語ペアとタスクに応じて native テンプレートを上回ることもあり、強力なゼロショット・少数ショットの結果を生み出す。
高資源言語でのデモンストレーションは低資源言語の性能を大きく向上させることがあるが、ターゲット言語プロンプトが強力に既に存在する場合、その効果は小さくなる。
GPT-3 6.7B と比較して、XGLM-7.5B は非英語タスクで一般に優れた多言語性能を示すが、英語タスクでは英語中心モデルに対して低下が見られる可能性がある。
Translate-test ベースライン（英語へ翻訳してからGPT-3推論）は多言語の少数ショット設定で競争力があり、翻訳の価値を示す。
モデルサイズの拡大は多言語タスクとクロスリンガルデモンストレーションの有効性を広く向上させるが、すべてのタスクで均一ではなく（例：PAWS-X は振動がある）、タスクによって異なる。
XGLM は WMT FLORES-101 の方向性で競争力のある MT性能を示し、 paralell dataのない低資源言語での MT の可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。