QUICK REVIEW

[논문 리뷰] Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning

Rujie Wu, Haozhe Zhao|arXiv (Cornell University)|2026. 03. 12.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

GDO는 고정 다중모달 풀에서 최적화된 1배 데이터 서브셋을 구성하여 MVBench, VideoMME, MLVU, LVBench 전반에서 고정 512k 샘플 기준선보다 더 빠른 수렴과 더 높은 정확도를 달성합니다.

ABSTRACT

Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$ imes$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.

연구 동기 및 목표

고정 다중모달 지시 학습 구성에서 데이터 할당이 성능과 수렴에 어떻게 영향을 미치는지 식별합니다.
여섯 가지 샘플 기술자를 사용하여 최적화된 1x 서브셋을 구성하는 재사용 가능한 파이프라인(GDO)을 제안합니다.
고정 계산 자원 하에서 더 적은 학습 샘플로도 GDO가 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다.
다른 목표 프로필이 능력 및 수렴에 어떤 영향을 미치는지 분석하고 이득이 벤치마크 간에 왜 달라지는지 설명합니다.

제안 방법

데이터 최적화 효과를 고립하기 위해 고정 백본, 학습 레시피, 체크포인트, 평가를 정의합니다.
후보 샘플당 6개의 샘플 기술자를 계산하여 모션, 비디오 의존도, 시간적 필요성, 안정성, 난이도, 커버리지를 포착합니다.
공유 스코어 ρ(x)를 계산하고 목표별 실현 가능 프리셋 Cg를 적용하여 최적화된 1x 서브셋 Sg와 균일 컨트롤 Ug를 구성합니다.
모달리티 혼합 및 출처 폭을 유지하기 위해 계층별 할당, 중복 제거, 및 비디오당 QA를 적용한 단계별 서브셋 구성을 사용합니다.
MVBench, VideoMME, MLVU, LVBench 전반에 걸쳐 고정 Uni-10x baseline에 대해 4개의 GDO 프로필(MinLoss, Diverse, Temp, Temp+)를 평가합니다.
시간적 강조가 하위 작업에서의 성능 변화를 어떻게 유도하는지 궤적과 차감을 보고합니다.

실험 결과

연구 질문

RQ1고정 학습 계약 하에서 더 적은 데이터로도 더 빠른 수렴이 가능합니까?
RQ2여섯 가지 샘플 기술자는 서브셋 구성에 있어 다중모달 샘플의 가치를 어떻게 포착합니까?
RQ3다른 목표 프로필(MinLoss, Diverse, Temp, Temp+)은 서로 다른 능력 및 수렴 궤적을 생성합니까?
RQ4다양한 시간적 요구를 가진 벤치마크에서 데이터 최적화의 이득이 왜 다르게 나타납니까?

주요 결과

벤치마크	Uni-10x	GDO	Δ (pp)	피크 매치	감소
MVBench	62.27	63.65	+1.38	35.4k	14.5x
VideoMME	61.22	62.89	+1.67	26.6k	19.2x
MLVU	43.81	46.89	+3.08	27.3k	18.8x
LVBench	40.22	41.06	+0.84	34.7k	14.8x

GDO는 모든 벤치마크에서 고정 Uni-10x 기준보다 훨씬 적은 샘플로 도달합니다.
GDO는 성능 이점을 제공합니다: MVBench +1.38 pp, VideoMME +1.67 pp, MLVU +3.08 pp, LVBench +0.84 pp.
GDO는 512k Uni-10x 기준에 비해 14.5x–19.2x 데이터 감소로 피크 매치에 도달합니다.
시간적 강조는 특히 MVBench 및 MLVU에서 긴 비디오 이해를 강화합니다.
네 가지 프로필은 일관된 최전선을 형성합니다: MinLoss는 가장 데이터 효율적이고, Temp/Temp+는 시간적 이해를 극대화하며, Diverse는 커버리지에 중점을 둡니다.
Ablation 분석은 Temp+의 이득이 여러 기술자 용어의 조합에서 비롯되며 단일 요인 때문이 아님을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.