QUICK REVIEW

[論文レビュー] Multitask Prompted Training Enables Zero-Shot Task Generalization

Victor Sanh, Albert Webson|arXiv (Cornell University)|Oct 15, 2021

Topic Modeling参考文献 132被引用数 561

ひとこと要約

この論文は、プロンプト付きタスクの大規模マルチタスクスイートでモデルを明示的に訓練することが、ゼロショット一般化を強力に促進し、多くのケースで held-out タスクでより大きなモデルを上回ることを示している。

ABSTRACT

Large language models have recently been shown to attain reasonable zero-shot generalization on a diverse set of tasks (Brown et al., 2020). It has been hypothesized that this is a consequence of implicit multitask learning in language models' pretraining (Radford et al., 2019). Can zero-shot generalization instead be directly induced by explicit multitask learning? To test this question at scale, we develop a system for easily mapping any natural language tasks into a human-readable prompted form. We convert a large set of supervised datasets, each with multiple prompts with diverse wording. These prompted datasets allow for benchmarking the ability of a model to perform completely held-out tasks. We fine-tune a pretrained encoder-decoder model (Raffel et al., 2020; Lester et al., 2021) on this multitask mixture covering a wide variety of tasks. The model attains strong zero-shot performance on several standard datasets, often outperforming models up to 16x its size. Further, our approach attains strong performance on a subset of tasks from the BIG-bench benchmark, outperforming models up to 6x its size. All trained models are available at https://github.com/bigscience-workshop/t-zero and all prompts are available at https://github.com/bigscience-workshop/promptsource.

研究の動機と目的

明示的なマルチタスク prompted 訓練を通じてゼロショット一般化を促進する。
公開タスクから大規模で多様なプロンプト付きデータセットの混合を構築する。
ホールドアウトタスクおよび BIG-bench タスクにおけるゼロショット性能を評価する。
プロンプトやデータセットを変更することによるプロンプト表現の頑健性を分析する。

提案手法

プロンプト付きデータセットのマルチタスク混合に対してエンコーダ-デコーダモデル（T0）をファインチューニングする。
複数のテンプレートを用いてデータセットを入力-ターゲットプロンプトへ変換するため、簡易なテンプレーティング言語を使用する。
Public Pool of Prompts (P3) からプロンプトを組み立て、プロンプトの多様性を最大化する。
データセットとプロンプトを増やして、バリアント（T0, T0+, T0++）を訓練する。
入力/ターゲット系列をそれぞれ1024/256トークンに制限し、トレーニングにパッキングを用いる。
頑健性を測るため、プロンプト間の四分位範囲を用いた中央値性能を報告する。

実験結果

リサーチクエスチョン

RQ1マルチタスクのプロンプト訓練は、ホールドアウトタスクへのゼロショット一般化を改善するか？
RQ2より広い範囲のプロンプトで訓練すると、プロンプト表現への頑健性が向上するか？
RQ3提案手法は、GPT-3および BIG-bench のベースラインと、ホールドアウトタスクでどのように比較されるか？

主な発見

T0 は約16倍小さいにもかかわらず、11個のホールドアウトデータセットのうち9個で GPT-3 と同等かそれ以上である。
BIG-bench のタスク14中13で、大規模ベースラインを上回る。
データセットあたりのプロンプトを増やすことで、中央値の性能が一貫して向上し、ばらつきが減少する。
より多くのデータセットで訓練すると、ホールドアウトタスクの中央値性能が向上する傾向がある。
プロンプトの多様性（長さ・様式）は、タスクを横断する頑健性と一般化に寄与する。
T0 のバリアントは通常 FLAN を上回りつつ、かなり小型である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。