QUICK REVIEW

[論文レビュー] Crosslingual Generalization through Multitask Finetuning

Niklas Muennighoff, Thomas J. Wang|arXiv (Cornell University)|Nov 3, 2022

Topic Modeling被引用数 27

ひとこと要約

本研究は multilingual BLOOM および mT5 を multitask prompts でファインチューニングし BLOOMZ および mT0 を作成し、英語のみの multitask ファインチューニングがクロスリンガルな一般化を可能にすることを示し、さらに multilingual training (xP3/xP3mt) が言語やタスクを問わず、意図的に見られていない言語も含めた zero-shot パフォーマンスを向上させる。

ABSTRACT

Multitask prompted finetuning (MTF) has been shown to help large language models generalize to new tasks in a zero-shot setting, but so far explorations of MTF have focused on English data and models. We apply MTF to the pretrained multilingual BLOOM and mT5 model families to produce finetuned variants called BLOOMZ and mT0. We find finetuning large multilingual language models on English tasks with English prompts allows for task generalization to non-English languages that appear only in the pretraining corpus. Finetuning on multilingual tasks with English prompts further improves performance on English and non-English tasks leading to various state-of-the-art zero-shot results. We also investigate finetuning on multilingual tasks with prompts that have been machine-translated from English to match the language of each dataset. We find training on these machine-translated prompts leads to better performance on human-written prompts in the respective languages. Surprisingly, we find models are capable of zero-shot generalization to tasks in languages they have never intentionally seen. We conjecture that the models are learning higher-level capabilities that are both task- and language-agnostic. In addition, we introduce xP3, a composite of supervised datasets in 46 languages with English and machine-translated prompts. Our code, datasets and models are freely available at https://github.com/bigscience-workshop/xmtf.

研究の動機と目的

英語のみの multitask ファインチューニングが多言語 LLM における非英語の zero-shot 性能を向上させるかを示す。
multilingual multitask finetuning（xP3）がクロスリンガルおよび英語タスクの性能をさらに向上させるかを評価する。
英語プロンプトと翻訳プロンプトのゼロショットタスクへの影響、および機械翻訳プロンプト（xP3mt）の影響を評価する。
事前学習またはファインチューニング中に意図的に見られていない言語のタスクへ、モデルが一般化できるかを調査する。

提案手法

英語中心の P3 を 46 言語で拡張した、多言語マルチタスクコーパス xP3 上で、事前学習済み BLOOM および mT5 をファインチューニングする。
データセット言語に合わせてプロンプトを機械翻訳して、プロンプト言語の効果を調べるために xP3mt を作成する。
コアモデルのバリアントを作成: BLOOMZ-P3/mT0-P3（英語タスクに英語プロンプト）、BLOOMZ/mT0（xP3）、BLOOMZ-MT/mT0-MT（xP3mt）。
保留タスク（コアリファレンス、文の完成、NLI など）および生成タスク（翻訳、要約）を、プロンプトベースのゼロショット設定で評価する。
アーキテクチャと事前学習の差を分析するため、デコーダーのみの BLOOM バリアントとエンコーダ-デコーダの mT5 を比較する。

実験結果

リサーチクエスチョン

RQ1英語のみの multitask ファインチューニングが多言語 LLM における非英語の zero-shot 性能を向上させるかを示す。
RQ2multilingual multitask finetuning（xP3）がクロスリンガルおよび英語タスクの性能をさらに向上させるかを評価する。
RQ3英語プロンプトと翻訳プロンプトのゼロショットタスクへの影響、および機械翻訳プロンプト（xP3mt）の影響を評価する。
RQ4事前学習またはファインチューニング中に意図的に見られていない言語のタスクへ、モデルが一般化できるかを調査する。

主な発見

マルチタスクファインチューニングは、複数のタスクと言語にわたって、ベースの事前学習モデルよりゼロショットの一般化を大幅に改善する。
英語のみの xP3 ファインチューニングは英語タスクで英語のみの P3 を上回り、xP3 は一般により強い多言語パフォーマンスを示す。
機械翻訳プロンプトを用いた xP3mt でファインチューニングすると非英語の人間作成プロンプトでの性能が向上する一方、英語プロンプトの性能は低下する場合がある。
xP3 でファインチューニングされたモデルは、事前学習やファインチューニング中に意図的に見られていない言語のタスクへ一般化できる能力を示しており、言語・タスクに依存しない能力を示唆する。
モデルサイズを拡大するとゼロショットの一般化が向上し、パラメータ数が増えるにつれて、事前学習済みモデルとファインチューニングモデルのギャップが広がる。
マルチタスクファインチューニングはコード関連タスクの出力を短くする傾向があり、最小生成長を強制するプロンプト手法がこれを緩和し、翻訳 BLEU スコアを改善する可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。