[論文レビュー] The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
この論文は Flan 2022 の instruction-tuning 手法をアブレーションし、混合プロンプト訓練、タスクの多様化、入力反転、データソースのバランシングが 3–17% の利得を生み、Flan-T5 は収束が早く、単一タスク微調整の出発点としてより強力であることを示し、Flan 2022 リソースを公に公開している。
We study the design decisions of publicly available instruction tuning methods, and break down the development of Flan 2022 (Chung et al., 2022). Through careful ablation studies on the Flan Collection of tasks and methods, we tease apart the effect of design decisions which enable Flan-T5 to outperform prior work by 3-17%+ across evaluation settings. We find task balancing and enrichment techniques are overlooked but critical to effective instruction tuning, and in particular, training with mixed prompt settings (zero-shot, few-shot, and chain-of-thought) actually yields stronger (2%+) performance in all settings. In further experiments, we show Flan-T5 requires less finetuning to converge higher and faster than T5 on single downstream tasks, motivating instruction-tuned models as more computationally-efficient starting checkpoints for new tasks. Finally, to accelerate research on instruction tuning, we make the Flan 2022 collection of datasets, templates, and methods publicly available at https://github.com/google-research/FLAN/tree/main/flan/v2.
研究の動機と目的
- 公開されている instruction-tuning 手法の設計決定を評価する。
- Flan 2022 コレクションで性能向上の要因となる要素を特定する。
- Flan-T5 を単一タスク微調整の出発点として評価する。
- リサーチを加速するオープンソースのデータセット、テンプレート、手法を提供する。
提案手法
- Flan 2022 コレクションで ablations のため XL, 3B の T5-LM ベースモデルをファインチューニングする。
- Flan-T5 XL を Held-In、Held-Out、CoT ベンチマークで他の instruction-tuning コレクションと比較する。
- 制御されたアブレーションを実施: 混合ゼロショット/少数ショットのテンプレート、入力反転、データソースのバランシング、1800+ タスクへのスケーリング。
- Held-In および Held-Out の性能に対するタスク多様性と混合の影響を分析。
- Flan-T5 と T5 の単一タスク微調整における収束速度と効率を比較。
- Flan 2022 コレクション、テンプレート、および手法を公開利用可能にする。
実験結果
リサーチクエスチョン
- RQ1instruction tuning におけるどの設計選択が Held-In, Held-Out, CoT ベンチマークでの性能に最も影響を与えるか?
- RQ2訓練中にゼロショット、少数ショット、CoT プロンプトを混合することが、プロンプトやタスクの一般化にどう影響するか?
- RQ3Flan 2022 でモデルサイズとタスク数のスケーリングが Held-In および Held-Out の性能に及ぼす影響は?
- RQ4入力反転とタスクソースのバランシングは、性能向上に有意な寄与をするか?
- RQ5Flan-T5 は従来の T5 モデルと比較して、単一タスク微調整の際により速く収束し、より高い性能を示す開始点となり得るか?
主な発見
- 混合ゼロショットと少数ショットのプロンプトで訓練すると、 Held-In および Held-Out の設定の両方で性能が向上し、いくつかのケースで最大で 2% 以上の利得が得られる。
- 入力反転によるタスク多様性の強化は Held-Out の評価(MMLU と BBH)に有利になる。
- データソースのバランスと Chain-of-Thought データの含有は、指標全体の改善に寄与する。
- 1800+ タスクへのスケーリングは性能向上をもたらし、より大きなモデルほどタスク多様性とサイズの恩恵を受ける。
- Flan-T5 は単一タスク微調整で T5 よりも収束が速く、精度が高く、より強力な開始チェックポイントとして機能する。
- The Flan 2022 コレクションは Flan 2021、P3++、Super-Natural Instructions、OPT-IML-Max 175B をいくつかの Held-In および Held-Out ベンチマークで上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。