QUICK REVIEW

[論文レビュー] From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning

Ming Li, Yong Zhang|arXiv (Cornell University)|Aug 23, 2023

Natural Language Processing Techniques被引用数 8

ひとこと要約

この論文は、自己指導型データ選択法を用いた大規模言語モデル（LLM）の指示追従チューニングを提案し、オープンソースデータから高影響データを cherry-pick する Instruction-Following Difficulty (IFD) 指標を導入して、はるか少ないデータ量でより強い結果を達成する。

ABSTRACT

In the realm of Large Language Models (LLMs), the balance between instruction data quality and quantity is a focal point. Recognizing this, we introduce a self-guided methodology for LLMs to autonomously discern and select cherry samples from open-source datasets, effectively minimizing manual curation and potential cost for instruction tuning an LLM. Our key innovation, the Instruction-Following Difficulty (IFD) metric, emerges as a pivotal metric to identify discrepancies between a model's expected responses and its intrinsic generation capability. Through the application of IFD, cherry samples can be pinpointed, leading to a marked uptick in model training efficiency. Empirical validations on datasets like Alpaca and WizardLM underpin our findings; with a mere $10\%$ of original data input, our strategy showcases improved results. This synthesis of self-guided cherry-picking and the IFD metric signifies a transformative leap in the instruction tuning of LLMs, promising both efficiency and resource-conscious advancements. Codes, data, and models are available: https://github.com/tianyi-lab/Cherry_LLM

研究の動機と目的

LLM のチューニングにおいて、指示追従の質を維持・向上させながらデータ量を削減する動機づけ。
大規模なオープンソースデータセットから cherry データを特定する自己指導型データ選択プロセスを導入。
Instruction-Following Difficulty (IFD) 指標を定義・活用し、指示がモデル出力をどの程度導くかを測定。
Alpaca および WizardLM ベンチマークで従来データの約5-10%程度を用いて競争力あるまたは上回る結果を達成することによる効率化の実証。

提案手法

Phase 1: Learning from Brief Experience は instruction embedding に対して K-means クラスタリングを用い、経験が浅い小規模データセットを作成して初期モデルを1エポック訓練。
Phase 2: Evaluating Based on Experience は Conditioning された回答損失と直接回答損失を比較して Instruction-Following Difficulty (IFD) スコアを定義し、チェリーデータ選択を誘導。
Phase 3: Retraining from Self-Guided Experience は、高IFDサンプルを用いてチェリーモデルを再訓練する。実験では基盤モデルとして Meta LLaMA-7B を使用。
IFD は IFD(Q,A) = s_theta(A|Q) / s_theta(A) と計算され、s_theta(A|Q) は条件付き回答スコア、s_theta(A) は直接回答スコア。
IFD スコアが1より大きいサンプルをフィルタリングし、事前経験モデルの出力を用いてターゲットデータセットでのIFDスコアを得る。
実験には Alpaca と WizardLM データセットを使用。モデルは約5-10% のデータで訓練され、複数のテストセットで評価。
評価は GPT-4/ChatGPT によるモデル判定のペアワイズ比較と、サンプル实例に対する人間評価に依存。

実験結果

リサーチクエスチョン

RQ1LLMs は extensive な人手によるキュレーションなしに、オープンソースデータセットから高影響の指示追従データを特定できるか。
RQ2IFD 指標は、より良い指示追従性能につながる指示データを効果的に識別するか。
RQ3自己指導型のIFDベース戦略を用いたデータ選択によって、指示チューニングでどの程度データ効率を高められるか。
RQ4チェリーデータアプローチはモデルサイズやオープンソースベースライン（例: Alpaca, WizardLM, LLaMA2）に対して一般化可能か。
RQ5データの多様性だけが指示チューニング性能を駆動するか、それとも品質重視のチェリーデータが重要か。

主な発見

提案手法により選択された約5-10% のデータで訓練したモデルは、Alpaca および WizardLM ベンチマークで全データ訓練と同等以上の性能を上回る。
チェリーモデルは選択的データで、Huggingface Open LLM Leaderboard および AlpacaEval Leaderboard で強力なベースラインと比較して競争力のある結果を達成。
アブレーションにより、ランダムデータ、多様性重視のサンプリング、低IFDスコア選択は劣ることが示され、IFDベース選択の価値が強調。
LLaMA2-7B および LLaMA2-13B での実験は、異なる基盤モデルとデータ規模でも本手法が有効であることを示唆。
人間評価は、チェリーデータ選択が指示補正にとってより困難で重要な指示と一致することを裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。