Skip to main content
QUICK REVIEW

[論文レビュー] RADAR: Revealing Asymmetric Development of Abilities in MLLM Pre-training

Yunshuang Nie, Bingqian Lin|arXiv (Cornell University)|Feb 13, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文は、多領域言語-視覚モデル(MLLMs)が事前学習中に能力を非対称的に発展させることを調査し、この現象を分析する RADAR を提示する。

ABSTRACT

Pre-trained Multi-modal Large Language Models (MLLMs) provide a knowledge-rich foundation for post-training by leveraging their inherent perception and reasoning capabilities to solve complex tasks. However, the lack of an efficient evaluation framework impedes the diagnosis of their performance bottlenecks. Current evaluation primarily relies on testing after supervised fine-tuning, which introduces laborious additional training and autoregressive decoding costs. Meanwhile, common pre-training metrics cannot quantify a model's perception and reasoning abilities in a disentangled manner. Furthermore, existing evaluation benchmarks are typically limited in scale or misaligned with pre-training objectives. Thus, we propose RADAR, an efficient ability-centric evaluation framework for Revealing Asymmetric Development of Abilities in MLLM pRe-training. RADAR involves two key components: (1) Soft Discrimination Score, a novel metric for robustly tracking ability development without fine-tuning, based on quantifying nuanced gradations of the model preference for the correct answer over distractors; and (2) Multi-Modal Mixture Benchmark, a new 15K+ sample benchmark for comprehensively evaluating pre-trained MLLMs' perception and reasoning abilities in a 0-shot manner, where we unify authoritative benchmark datasets and carefully collect new datasets, extending the evaluation scope and addressing the critical gaps in current benchmarks. With RADAR, we comprehensively reveal the asymmetric development of perceptual and reasoning capabilities in pretrained MLLMs across diverse factors, including data volume, model size, and pretraining strategy. Our RADAR underscores the need for a decomposed perspective on pre-training ability bottlenecks, informing targeted interventions to advance MLLMs efficiently. Our code is publicly available at https://github.com/Nieysh/RADAR.

研究の動機と目的

  • MLLMが事前学習中に多様な能力を獲得する仕組みを理解する。
  • これらの能力の発展における非対称性を特定・特徴づける。
  • MLLM 事前学習ダイナミクスを分析・解釈するためのフレームワークを提供する。

提案手法

  • MLLM の事前学習ダイナミクスを解剖する RADAR フレームワークを提案する。
  • 学習段階を通じたさまざまな能力の発展パターンを分析する。
  • 能力の出現タイミングを比較する指標や分析手法を提示する。

実験結果

リサーチクエスチョン

  • RQ1MLLMs は事前学習中に異なる能力の非対称的発展を示すか。
  • RQ2MLLM 事前学習における能力の出現時期と順序を示す指標は何か。
  • RQ3タスク/能力間の発展ダイナミクスをどう解釈・比較できるか。

主な発見

  • MLLM の事前学習は、異なる能力間で非対称の発展を示す。
  • RADAR は特定の能力が他と比較していつ、どのように出現するかに関する洞察を提供する。
  • この分析は不均一な進捗を説明し、ターゲットを絞った事前学習戦略を導く手助けとなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。