Skip to main content
QUICK REVIEW

[論文レビュー] R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?

Jingyi Zhang, Tianyi Lin|arXiv (Cornell University)|Feb 3, 2026
Topic Modeling被引用数 0
ひとこと要約

本論文は CADS を提案。Collective Adversarial Data Synthesis フレームワークを用いて、MLLMs 向けの高品質・多様・難易度の高い多模データを生成し、MMSynthetic-20K および GRPO で訓練したモデル R1-SyntheticVL を得る。

ABSTRACT

In this work, we aim to develop effective data synthesis techniques that autonomously synthesize multimodal training data for enhancing MLLMs in solving complex real-world tasks. To this end, we propose Collective Adversarial Data Synthesis (CADS), a novel and general approach to synthesize high-quality, diverse and challenging multimodal data for MLLMs. The core idea of CADS is to leverage collective intelligence to ensure high-quality and diverse generation, while exploring adversarial learning to synthesize challenging samples for effectively driving model improvement. Specifically, CADS operates with two cyclic phases, i.e., Collective Adversarial Data Generation (CAD-Generate) and Collective Adversarial Data Judgment (CAD-Judge). CAD-Generate leverages collective knowledge to jointly generate new and diverse multimodal data, while CAD-Judge collaboratively assesses the quality of synthesized data. In addition, CADS introduces an Adversarial Context Optimization mechanism to optimize the generation context to encourage challenging and high-value data generation. With CADS, we construct MMSynthetic-20K and train our model R1-SyntheticVL, which demonstrates superior performance on various benchmarks.

研究の動機と目的

  • Multimodal Large Language Models (MLLMs) のデータ不足に対処し、自動でマルチモーダル訓練データを生成可能にする。
  • 高品質・多様・難易度の高いサンプルを生み出す一般的なデータ合成フレームワークを開発し、MLLM の推論能力を向上させる。
  • 高品質な合成 MMSynthetic-20K データセットを作成し、実世界のベンチマークに対して MLLMs を訓練・評価する。
  • 合成データで学習したモデルが実データベースレベルを超える性能を発揮し、実データを補完できることを示す。

提案手法

  • CADS を二つの循環フェーズで提案する:CAD-Generate(集団データ生成)と CAD-Judge(集団データ判断)。
  • 高価値な敵対的事例に基づいて生成文脈を精錬する Adversarial Context Optimization を使用。
  • 多様性と品質を保証するために複数のMLLMを生成・判断に活用。
  • CADS 生成データから MMSynthetic-20K を構築し、GRPO(強化学習)を用いて R1-SyntheticVL を訓練。
  • 一般・数学・チャート理解タスクを含む6つのベンチマークで評価し、最先端のオープンソース・クローズドソースモデルと比較。

実験結果

リサーチクエスチョン

  • RQ1集団的敵対的フレームワークで生成された合成マルチモーダルデータは、複雑な推論タスクでの MLLM の性能向上につながるか。
  • RQ2CADS は単一モデル生成法より高品質・多様・難易度の高いデータを生み出すか。
  • RQ3敵対的文脈最適化がデータ品質とモデル性能に与える影響はどの程度か。
  • RQ4合成データは MLLMs にとって実データを補完・代替できるか。
  • RQ5合成データサイズの拡大がモデル性能に与えるスケーラビリティはどうなるか。

主な発見

ModelMathVistaMathVerseMathVisionMMMUMMMU-ProCharXivAvgStd-10VisionReas.Desc.
R1-SyntheticVL (Ours)75.651.229.156.342.038.747.875.552.0
  • CADS は直接的な Nano Banana Pro の使用より高品質な合成マルチモーダルデータを生み出し、ベンチマークスコアの改善で示される。
  • MMSynthetic-20K データで訓練した R1-SyntheticVL は複数の推論ベンチマーク、特に MMMU-Pro でトップ性能を達成。
  • アブレーション実験は CAD-Generate および CAD-Judge がデータ品質を著しく改善し、Adversarial Context Optimization が追加の利益を提供。
  • MMSynthetic-20K のみを使用した場合、MathVista で実データより合成データが上回ることがあり、実データと組み合わせると結果がさらに改善。
  • 拡張実験では、合成データサイズが 20K まで増えるにつれて性能が向上し続け、飽和しないことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。