[論文レビュー] Finetuned Language Models Are Zero-Shot Learners
自然言語の指示で表現された60以上のデータセットで137Bパラメータの言語モデルを指示チューニングすると、未知のタスクにおけるゼロショット性能が大幅に向上し、多くのデータセットでGPT-3のゼロショットを上回り、いくつかのベンチマークではGPT-3のFew-shotを上回る。
This paper explores a simple method for improving the zero-shot learning abilities of language models. We show that instruction tuning -- finetuning language models on a collection of tasks described via instructions -- substantially improves zero-shot performance on unseen tasks. We take a 137B parameter pretrained language model and instruction-tune it on over 60 NLP tasks verbalized via natural language instruction templates. We evaluate this instruction-tuned model, which we call FLAN, on unseen task types. FLAN substantially improves the performance of its unmodified counterpart and surpasses zero-shot 175B GPT-3 on 20 of 25 tasks that we evaluate. FLAN even outperforms few-shot GPT-3 by a large margin on ANLI, RTE, BoolQ, AI2-ARC, OpenbookQA, and StoryCloze. Ablation studies reveal that number of finetuning datasets, model scale, and natural language instructions are key to the success of instruction tuning.
研究の動機と目的
- 自然言語の指示で表現されたタスクで言語モデルをファインチューニングすることが、ゼロショットのタスク性能を改善することを実証する。
- 大規模で多様なデータセットの混合による指示チューニングが、未知のタスクタイプへの一般化にどう影響するかを示す。
- ゼロショットの利得におけるモデルサイズ、訓練タスク数、指示の質の役割を評価する。
提案手法
- 自然言語指示テンプレートで表現された60以上のNLPデータセットの混合で、137Bパラメータのデコーダーのみを持つ言語モデル(LaMDA-PT)をファインチューニングする。
- 各データセットにつき10の指示テンプレートを作成してタスクを説明し、プロンプトを多様化するためにタスクを反転させるテンプレートも含める。
- 指示チューニング中に見られなかった保持アウトのタスククラスタでゼロショット性能を評価し、クラスタベースの評価分割を用いる。
- 推論時に許可された選択肢を指定することで分類タスクの出力を改善するためにオプションのサフィックスを使用する。
- 評価されたデータセット全体で、ゼロショットおよびFew-shotのGPT-3、GPT-3 175B、およびGLaMを比較する。
- 指示チューニングクラスタの数、モデル規模、指示の役割、Few-shotサンプルの影響についてアブレーションを行う。
実験結果
リサーチクエスチョン
- RQ1指示形式のタスクで言語モデルをファインチューニングすると、未知のタスクタイプに対するゼロショット性能が改善されるか?
- RQ2指示チューニングタスクの数、モデル規模、指示内容といった要因がゼロショットの一般化にどう影響するか?
- RQ3多様なNLPタスクにおいて、指示チューニングされたモデルがゼロショットおよびFew-shot設定でGPT-3をどの程度上回ることができるか?
- RQ4利得は指示だけに起因するのか、データセットテンプレートやタスククラスタリングが重要な役割を果たすのか?
- RQ5指示チューニングと他の prompting 手法(Few-shot prompts、prompt tuningなど)との相互作用はどうなるか?
主な発見
- 指示チューニングは、未調整のベースモデルと比べて未知のタスクに対するゼロショット性能を大幅に改善する。
- FLANは評価データセット25のうち20でゼロショットGPT-3を上回り、いくつかのタスクではGPT-3のFew-shot性能を超えることができる。
- 指示チューニングの利点は、タスククラスタが多く、モデル規模が大きいほど大きくなる一方、小さいモデルでは利得が小さくなる。
- 指示チューニングはすべてのタスクを均一に改善するわけではなく、指示を言語化できるタスク(NLI、QA、翻訳)で効果が最も強く、言語モデル化として捉えられるようなタスク(いくつかの常識・コアferenceタスクなど)では効果が小さい。
- Few-shotの exemplarsはFLANの性能をさらに向上させ、テンプレート感度を低減させる。特に出力空間が大きいタスクで効果的。
- 指示チューニングはprompt tuningとの適合性も高め、さまざまなレジームで改善をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。