QUICK REVIEW

[論文レビュー] LESS: Selecting Influential Data for Targeted Instruction Tuning

Mengzhou Xia, Sadhika Malladi|arXiv (Cornell University)|Feb 6, 2024

Intelligent Tutoring Systems and Adaptive Learning被引用数 14

ひとこと要約

LESS は Adam 互換の影響推定と低ランク勾配データストアを用いて、ターゲット型指示調整のための最適化子対応データ選択法であり、少数で高効率なデータサブセットを選ぶ。完全なデータセットでの訓練よりしばしば少数（5%）のデータだけで上回り、モデルサイズとファミリを越えて転移する。

ABSTRACT

Instruction tuning has unlocked powerful capabilities in large language models (LLMs), effectively using combined datasets to develop generalpurpose chatbots. However, real-world applications often require a specialized suite of skills (e.g., reasoning). The challenge lies in identifying the most relevant data from these extensive datasets to effectively develop specific capabilities, a setting we frame as targeted instruction tuning. We propose LESS, an optimizer-aware and practically efficient algorithm to effectively estimate data influences and perform Low-rank gradiEnt Similarity Search for instruction data selection. Crucially, LESS adapts existing influence formulations to work with the Adam optimizer and variable-length instruction data. LESS first constructs a highly reusable and transferable gradient datastore with low-dimensional gradient features and then selects examples based on their similarity to few-shot examples embodying a specific capability. Experiments show that training on a LESS-selected 5% of the data can often outperform training on the full dataset across diverse downstream tasks. Furthermore, the selected data is highly transferable: smaller models can be leveraged to select useful data for larger models and models from different families. Our qualitative analysis shows that our method goes beyond surface form cues to identify data that exemplifies the necessary reasoning skills for the intended downstream application.

研究の動機と目的

特定の下流タスクでの損失を最小化するデータを選択することとして、ターゲット型指示調整を定義する。
影響ベースのデータ選択を Adam および可変長の指示データに適合させる。
LoRAとランダム射影を用いた効率的なデータ選択のためのスケーラブルな勾配データストアを開発する。
モデルサイズとファミリを超えた選択データの転移性を実証する。
LESS がターゲットタスクに必要な推論スキルと一致するデータを選択するという定性的証拠を提供する。

提案手法

Adam に適した一階のトレーニング影響の定式化を適用し、Inf_Adam を勾配ベースの影響指標として定義する。
勾配特徴量抽出のためのパラメータ効率的なウォームアップ訓練を可能にする LoRA を用いる。
ランダム射影（Johnson– Lindenstrauss）によって勾配を低次元空間へ射影し、効率的な類似度計算を可能にする勾配データストアを構築する。
サブタスクごとの検証勾配平均を計算し、Inf_Adam のサブタスクごとの最大値を用いて候補データを評価し、5% の訓練サブセットを選択する。
選択モデル M_S を用いてオフラインでデータ選択を行い、選択サブセットでターゲットモデル M_T を訓練し、転移を可能にする（LESS-T）。
3 つの下流データセット（MMLU、TydiQA、BBH）を対象に、複数のベースモデル（Llama-2-7B、Llama-2-13B、Mistral-7B）で評価する。

実験結果

リサーチクエスチョン

RQ1ターゲット検証タスクでの損失を直接最小化するデータを選択することで、ターゲット指示調整は改善されるか？
RQ2影響ベースのデータ選択を Adam および可変長の指示データとどう共存させられるか？
RQ3低次元の勾配データストアは、影響力のあるデータを選択するのに十分かつ効率的か？
RQ4小さなモデルが選んだデータは、より大きなモデルや異なるモデルファミリへ効果的に転移するか？
RQ5LESS は表面的な手掛かりではなく、基盤となる推論スキルに基づくデータを選択するか？

主な発見

5% の LESS 選択サブセットでの訓練は、さまざまなタスクとモデルで完全データセットでの訓練をしばしば上回る。
LESS で選択されたデータは転移性が高い。小さなモデルが選んだデータは、より大きなモデルや異なるファミリのモデルの性能を高める。
LESS は MMLU、TydiQA、BBH において、ランダム選択、BM25、DSIR、RDS などのベースラインを一貫して上回る。
小さなウォームアップサブセット（5%）と複数の勾配チェックポイントを用いると、影響推定と最終精度が向上する。より多くのウォームアップデータとチェックポイントは通常効果的。
定性的分析は、LESS がターゲットタスクに必要な推論スキルと一致するデータを選択し、表面的なテキスト類似性だけではないことを示す。
転移設定（LESS-T）では、Llama-2-7B の勾配で選択したデータが Llama-2-13B や Mistral-7B の訓練時に強い結果を生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。