Skip to main content
QUICK REVIEW

[논문 리뷰] RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training

Yunshuang Nie, Bingqian Lin|arXiv (Cornell University)|2026. 02. 13.
Topic Modeling인용 수 0
한 줄 요약

논문은 다중 도메인 언어-비전 모델(MLLM)이 사전 학습 동안 불균형하게 능력을 개발하는 방식을 탐구하고 이 현상을 분석하기 위한 RADAR를 제시한다.

ABSTRACT

Pre-trained Multi-modal Large Language Models (MLLMs) provide a knowledge-rich foundation for post-training by leveraging their inherent perception and reasoning capabilities to solve complex tasks. However, the lack of an efficient evaluation framework impedes the diagnosis of their performance bottlenecks. Current evaluation primarily relies on testing after supervised fine-tuning, which introduces laborious additional training and autoregressive decoding costs. Meanwhile, common pre-training metrics cannot quantify a model's perception and reasoning abilities in a disentangled manner. Furthermore, existing evaluation benchmarks are typically limited in scale or misaligned with pre-training objectives. Thus, we propose RADAR, an efficient ability-centric evaluation framework for Revealing Asymmetric Development of Abilities in MLLM pRe-training. RADAR involves two key components: (1) Soft Discrimination Score, a novel metric for robustly tracking ability development without fine-tuning, based on quantifying nuanced gradations of the model preference for the correct answer over distractors; and (2) Multi-Modal Mixture Benchmark, a new 15K+ sample benchmark for comprehensively evaluating pre-trained MLLMs' perception and reasoning abilities in a 0-shot manner, where we unify authoritative benchmark datasets and carefully collect new datasets, extending the evaluation scope and addressing the critical gaps in current benchmarks. With RADAR, we comprehensively reveal the asymmetric development of perceptual and reasoning capabilities in pretrained MLLMs across diverse factors, including data volume, model size, and pretraining strategy. Our RADAR underscores the need for a decomposed perspective on pre-training ability bottlenecks, informing targeted interventions to advance MLLMs efficiently. Our code is publicly available at https://github.com/Nieysh/RADAR.

연구 동기 및 목표

  • MLLM이 사전 학습 중에 다양한 능력을 어떻게 획득하는지 이해한다.
  • 이러한 능력 개발에서의 비대칭성을 식별하고 특성화한다.
  • MLLM 사전 학습 역학을 분석하고 해석하기 위한 프레임워크를 제공한다.

제안 방법

  • MLLM의 사전 학습 역학을 해부하기 위한 RADAR 프레임워크를 제안한다.
  • 훈련 단계에 걸친 다양한 능력의 개발 패턴을 분석한다.
  • 능력 발현 시점을 비교하기 위한 지표나 분석 기법을 제시한다.

실험 결과

연구 질문

  • RQ1MLLM은 사전 학습 중에 서로 다른 능력의 비대칭적 개발을 나타내는가?
  • RQ2MLLM 사전 학습에서 능력 발현의 시점과 순서를 드러내는 지표는 무엇인가?
  • RQ3작업/능력 간의 개발 역학을 어떻게 해석하고 비교할 수 있는가?

주요 결과

  • MLLM 사전 학습은 서로 다른 능력들 간에 비대칭적 발달을 보인다.
  • RADAR는 특정 능력이 다른 능력들에 비해 언제 그리고 어떻게 나타나는지에 대한 통찰을 제공한다.
  • 이 분석은 불균등한 진행을 설명하고 목표지향적 사전 학습 전략을 안내하는 데 도움을 준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.