QUICK REVIEW

[論文レビュー] Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning

Rujie Wu, Haozhe Zhao|arXiv (Cornell University)|Mar 12, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

GDOは固定の多模態プールから最適化された1xデータサブセットを構築し、MVBench、VideoMME、MLVU、LVBenchの各ベンチマークで、固定512kサンプルのベースラインよりも収束を速め、精度を向上させます。

ABSTRACT

Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$\times$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.

研究の動機と目的

固定の多模態指示チューニング設定におけるデータ割り当てが性能と収束にどう影響するかを特定する。
6つのサンプル記述子を用いて最適化された1xサブセットを構築する再利用可能なパイプライン（GDO）を提案する。
固定計算リソースの下で、はるかに少ない学習サンプルで同等またはそれ以上の性能をGDOが達成できることを示す。
さまざまなゴールプロファイルが能力と収束にどう影響するかを分析し、ベンチマーク間で利得が異なる理由を説明する。

提案手法

データ最適化効果を分離するために、固定のベースライン、トレーニングレシピ、チェックポイント、評価を定義する。
候補サンプルごとに6つのサンプル記述子を計算し、動作、映像依存性、時間的必要性、安定性、難易度、カバレッジを捉える。
共有スコアρ(x)を計算し、ゴール固有の実現性プリセットCgを適用して、最適化された1xサブセットSgと一様コントロールUgを構築する。
モダリティ混合とソースの広がりを維持するために、階層ごとの割当、重複排除、各動画あたりのQA制限を用いた段階的サブセット構築を行う。
4つのGDOプロファイル（MinLoss、Diverse、Temp、Temp+）を、固定のUni-10xベースラインに対してMVBench、VideoMME、MLVU、LVBench全体で評価する。
時間的強調がサブタスク間の能力をどのように拡張するか、トラジェクトリとアブレーションを報告する。

実験結果

リサーチクエスチョン

RQ1固定トレーニング契約の下で、データ最適化はより少ないデータとより速い収束を提供できるか。
RQ26つのサンプル記述子はサブセット構築における多模態サンプルの価値をどのように捉えるか。
RQ3異なるゴールプロファイル（MinLoss、Diverse、Temp、Temp+）は、異なる能力と収束の軌道を生み出すか。
RQ4テンポラルな要求が異なるベンチマーク間でデータ最適化の利得のばらつきを生む理由は何か。

主な発見

Benchmark	Uni-10x	GDO	Δ (pp)	Peak Match	Reduction
MVBench	62.27	63.65	+1.38	35.4k	14.5x
VideoMME	61.22	62.89	+1.67	26.6k	19.2x
MLVU	43.81	46.89	+3.08	27.3k	18.8x
LVBench	40.22	41.06	+0.84	34.7k	14.8x

GDOはすべてのベンチマークで固定のUni-10xリファレンスよりはるかに少ないサンプル数で到達する。
GDOは性能向上を提供：MVBench +1.38 pp、VideoMME +1.67 pp、MLVU +3.08 pp、LVBench +0.84 pp。
GDOは512k Uni-10xリファレンスに対して14.5x–19.2xのデータ削減でピークマッチを達成。
時間的強調は特にMVBenchとMLVUで長時間のビデオ理解を強化。
4つのプロファイルが整ったフロンティアを形成：MinLossは最もデータ効率が高い；Temp/Temp+は時間理解を最大化；Diverseはカバレッジを強調。
アブレーションはTemp+の利得が複数の記述子項の組み合わせから生じることを示し、単一の要因ではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。