[論文レビュー] Scaling Instruction-Finetuned Language Models
本論文は、指示ベースのファインチューニングがより多くのタスクとより大きなモデルでスケールすること、そしてチェイン・オブ・ソウト(CoT)データを含めると推論能力が劇的に向上し、最先端の結果(例: Flan-PaLM 540B)と高品質なオープンエンド生成を実現することを示している。
Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
研究の動機と目的
- 指示ベースのファインチューニングによって未知のタスクへの一般化を動機づける。
- ファインチューニングタスクの数がモデルサイズ全体で性能に与える影響を調査する。
- 推論タスクに対するチェイン・オブ・ソウトデータの組み込みの影響を評価する。
- PaLM、T5、U-PaLMファミリに跨る指示ファインチューニングのモデル間適用性を示す。
- 指示ファインチューニングモデルの使いやすさと責任あるAIの側面を評価する。
提案手法
- T5、PaLM、U-PaLM の複数のモデルファミリーを、Muffin、T0-SF、NIV2、CoT データからなる合計1,836タスクの大規模な指示チューニングタスクの混成でファインチューニングする。
- パッキングを用いて複数の訓練例を終端トークンを含む1つのシーケンスに結合する。
- 入力の前に指示テンプレートを付け、境界にマスキングを適用する。Adafactorオプティマイザと一定の学習率スケジュールを採用する。
- 評価時にゼロショット、Few-shot、チェイン・オブ・ソウト(CoT)プロンプティング設定を組み合わせて実験する。
- 推論の影響を検討するため、手作業で作成されたCoT注釈を含む9データセットの専用CoTファインチューニングミックスを組み込む。
- ホールドアウトのベンチマーク(MMLU、BBH、TyDiQA、MGSM)で評価し、人間評価によるオープンエンド生成も評価する。
- さまざまなモデルサイズ(8B、62B、540B)とモデルファミリ(Flan-T5、Flan-PaLM、cont-PaLM、U-PaLM)を比較する。
実験結果
リサーチクエスチョン
- RQ1指示ファインチューニングは、タスク数とモデルサイズの増加に伴って利益をスケールさせるか?
- RQ2ファインチューニングにチェイン・オブ・ソウトデータを含めることは、保持されたタスクでの推論能力にどのような影響を与えるか?
- RQ3CoTファインチューニングは、非CoTタスクの性能を劣化させることなく、CoTタスクと併用できるか?
- RQ4指示ファインチューニングモデルは、アーキテクチャや事前学習目的を越えた一般化を示すか?
- RQ5指示ファインチューニングがオープンエンド生成の使いやすさと責任あるAIの指標に実用的な影響を与えるか?
主な発見
- 指示ファインチューニングは、モデルサイズとプロンプトを跨いで大きな性能向上をもたらし、ホールドアウトベンチマークで9.4%から15.5%の向上をもたらす。
- ファインチューニングタスクを増やすと性能は向上するが、示されたスケールでは約282タスクを超えると向上は飽和する。
- 8Bから540Bへモデルサイズをスケールすると、ファインチューニング有無を問わず実質的な性能向上を提供する。
- ファインチューニングに9つのCoTデータセットを組み込むと、ベンチマーク全体で堅牢なCoT推論を可能にし、最先端の結果を達成(例: MMLUでCoT + Self-Consistencyを適用したFlan-PaLM 540Bが75.2%)
- CoTデータと非CoTデータの共同ファインチューニングは、非CoTの性能を維持しつつCoTの性能を大幅に向上させる。
- Self-Consistencyを用いたCoTプロンプティングは強い向上をもたらし、難しいタスクでゼロショットCoT推論を可能にする。
- Flanモデルは、多くのタスクで非指示ファインチューニングの counterparts を上回り、強力なゼロショットおよびFew-shot能力を含む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。