[논문 리뷰] Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning
GDO는 고정 다중모달 풀에서 최적화된 1배 데이터 서브셋을 구성하여 MVBench, VideoMME, MLVU, LVBench 전반에서 고정 512k 샘플 기준선보다 더 빠른 수렴과 더 높은 정확도를 달성합니다.
Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$ imes$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.
연구 동기 및 목표
- 고정 다중모달 지시 학습 구성에서 데이터 할당이 성능과 수렴에 어떻게 영향을 미치는지 식별합니다.
- 여섯 가지 샘플 기술자를 사용하여 최적화된 1x 서브셋을 구성하는 재사용 가능한 파이프라인(GDO)을 제안합니다.
- 고정 계산 자원 하에서 더 적은 학습 샘플로도 GDO가 동등하거나 더 나은 성능을 달성할 수 있음을 보여줍니다.
- 다른 목표 프로필이 능력 및 수렴에 어떤 영향을 미치는지 분석하고 이득이 벤치마크 간에 왜 달라지는지 설명합니다.
제안 방법
- 데이터 최적화 효과를 고립하기 위해 고정 백본, 학습 레시피, 체크포인트, 평가를 정의합니다.
- 후보 샘플당 6개의 샘플 기술자를 계산하여 모션, 비디오 의존도, 시간적 필요성, 안정성, 난이도, 커버리지를 포착합니다.
- 공유 스코어 ρ(x)를 계산하고 목표별 실현 가능 프리셋 Cg를 적용하여 최적화된 1x 서브셋 Sg와 균일 컨트롤 Ug를 구성합니다.
- 모달리티 혼합 및 출처 폭을 유지하기 위해 계층별 할당, 중복 제거, 및 비디오당 QA를 적용한 단계별 서브셋 구성을 사용합니다.
- MVBench, VideoMME, MLVU, LVBench 전반에 걸쳐 고정 Uni-10x baseline에 대해 4개의 GDO 프로필(MinLoss, Diverse, Temp, Temp+)를 평가합니다.
- 시간적 강조가 하위 작업에서의 성능 변화를 어떻게 유도하는지 궤적과 차감을 보고합니다.
실험 결과
연구 질문
- RQ1고정 학습 계약 하에서 더 적은 데이터로도 더 빠른 수렴이 가능합니까?
- RQ2여섯 가지 샘플 기술자는 서브셋 구성에 있어 다중모달 샘플의 가치를 어떻게 포착합니까?
- RQ3다른 목표 프로필(MinLoss, Diverse, Temp, Temp+)은 서로 다른 능력 및 수렴 궤적을 생성합니까?
- RQ4다양한 시간적 요구를 가진 벤치마크에서 데이터 최적화의 이득이 왜 다르게 나타납니까?
주요 결과
| 벤치마크 | Uni-10x | GDO | Δ (pp) | 피크 매치 | 감소 |
|---|---|---|---|---|---|
| MVBench | 62.27 | 63.65 | +1.38 | 35.4k | 14.5x |
| VideoMME | 61.22 | 62.89 | +1.67 | 26.6k | 19.2x |
| MLVU | 43.81 | 46.89 | +3.08 | 27.3k | 18.8x |
| LVBench | 40.22 | 41.06 | +0.84 | 34.7k | 14.8x |
- GDO는 모든 벤치마크에서 고정 Uni-10x 기준보다 훨씬 적은 샘플로 도달합니다.
- GDO는 성능 이점을 제공합니다: MVBench +1.38 pp, VideoMME +1.67 pp, MLVU +3.08 pp, LVBench +0.84 pp.
- GDO는 512k Uni-10x 기준에 비해 14.5x–19.2x 데이터 감소로 피크 매치에 도달합니다.
- 시간적 강조는 특히 MVBench 및 MLVU에서 긴 비디오 이해를 강화합니다.
- 네 가지 프로필은 일관된 최전선을 형성합니다: MinLoss는 가장 데이터 효율적이고, Temp/Temp+는 시간적 이해를 극대화하며, Diverse는 커버리지에 중점을 둡니다.
- Ablation 분석은 Temp+의 이득이 여러 기술자 용어의 조합에서 비롯되며 단일 요인 때문이 아님을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.