Skip to main content
QUICK REVIEW

[논문 리뷰] Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning

Rujie Wu, Haozhe Zhao|arXiv (Cornell University)|2026. 03. 12.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

GDO는 고정 다중모달 풀에서 최적화된 1배 데이터 서브셋을 구성하여 MVBench, VideoMME, MLVU, LVBench 전반에서 고정 512k 샘플 기준선보다 더 빠른 수렴과 더 높은 정확도를 달성합니다.

ABSTRACT

Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$ imes$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.

연구 동기 및 목표

  • 고정 다중모달 지시 학습 구성에서 데이터 할당이 성능과 수렴에 어떻게 영향을 미치는지 식별합니다.
  • 여섯 가지 샘플 기술자를 사용하여 최적화된 1x 서브셋을 구성하는 재사용 가능한 파이프라인(GDO)을 제안합니다.
  • 고정 계산 자원 하에서 더 적은 학습 샘플로도 GDO가 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다.
  • 다른 목표 프로필이 능력 및 수렴에 어떤 영향을 미치는지 분석하고 이득이 벤치마크 간에 왜 달라지는지 설명합니다.

제안 방법

  • 데이터 최적화 효과를 고립하기 위해 고정 백본, 학습 레시피, 체크포인트, 평가를 정의합니다.
  • 후보 샘플당 6개의 샘플 기술자를 계산하여 모션, 비디오 의존도, 시간적 필요성, 안정성, 난이도, 커버리지를 포착합니다.
  • 공유 스코어 ρ(x)를 계산하고 목표별 실현 가능 프리셋 Cg를 적용하여 최적화된 1x 서브셋 Sg와 균일 컨트롤 Ug를 구성합니다.
  • 모달리티 혼합 및 출처 폭을 유지하기 위해 계층별 할당, 중복 제거, 및 비디오당 QA를 적용한 단계별 서브셋 구성을 사용합니다.
  • MVBench, VideoMME, MLVU, LVBench 전반에 걸쳐 고정 Uni-10x baseline에 대해 4개의 GDO 프로필(MinLoss, Diverse, Temp, Temp+)를 평가합니다.
  • 시간적 강조가 하위 작업에서의 성능 변화를 어떻게 유도하는지 궤적과 차감을 보고합니다.

실험 결과

연구 질문

  • RQ1고정 학습 계약 하에서 더 적은 데이터로도 더 빠른 수렴이 가능합니까?
  • RQ2여섯 가지 샘플 기술자는 서브셋 구성에 있어 다중모달 샘플의 가치를 어떻게 포착합니까?
  • RQ3다른 목표 프로필(MinLoss, Diverse, Temp, Temp+)은 서로 다른 능력 및 수렴 궤적을 생성합니까?
  • RQ4다양한 시간적 요구를 가진 벤치마크에서 데이터 최적화의 이득이 왜 다르게 나타납니까?

주요 결과

벤치마크Uni-10xGDOΔ (pp)피크 매치감소
MVBench62.2763.65+1.3835.4k14.5x
VideoMME61.2262.89+1.6726.6k19.2x
MLVU43.8146.89+3.0827.3k18.8x
LVBench40.2241.06+0.8434.7k14.8x
  • GDO는 모든 벤치마크에서 고정 Uni-10x 기준보다 훨씬 적은 샘플로 도달합니다.
  • GDO는 성능 이점을 제공합니다: MVBench +1.38 pp, VideoMME +1.67 pp, MLVU +3.08 pp, LVBench +0.84 pp.
  • GDO는 512k Uni-10x 기준에 비해 14.5x–19.2x 데이터 감소로 피크 매치에 도달합니다.
  • 시간적 강조는 특히 MVBench 및 MLVU에서 긴 비디오 이해를 강화합니다.
  • 네 가지 프로필은 일관된 최전선을 형성합니다: MinLoss는 가장 데이터 효율적이고, Temp/Temp+는 시간적 이해를 극대화하며, Diverse는 커버리지에 중점을 둡니다.
  • Ablation 분석은 Temp+의 이득이 여러 기술자 용어의 조합에서 비롯되며 단일 요인 때문이 아님을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.