QUICK REVIEW

[論文レビュー] R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?

Jingyi Zhang, Tianyi Lin|arXiv (Cornell University)|Feb 3, 2026

Topic Modeling被引用数 0

ひとこと要約

本論文は CADS を提案。Collective Adversarial Data Synthesis フレームワークを用いて、MLLMs 向けの高品質・多様・難易度の高い多模データを生成し、MMSynthetic-20K および GRPO で訓練したモデル R1-SyntheticVL を得る。

ABSTRACT

In this work, we aim to develop effective data synthesis techniques that autonomously synthesize multimodal training data for enhancing MLLMs in solving complex real-world tasks. To this end, we propose Collective Adversarial Data Synthesis (CADS), a novel and general approach to synthesize high-quality, diverse and challenging multimodal data for MLLMs. The core idea of CADS is to leverage collective intelligence to ensure high-quality and diverse generation, while exploring adversarial learning to synthesize challenging samples for effectively driving model improvement. Specifically, CADS operates with two cyclic phases, i.e., Collective Adversarial Data Generation (CAD-Generate) and Collective Adversarial Data Judgment (CAD-Judge). CAD-Generate leverages collective knowledge to jointly generate new and diverse multimodal data, while CAD-Judge collaboratively assesses the quality of synthesized data. In addition, CADS introduces an Adversarial Context Optimization mechanism to optimize the generation context to encourage challenging and high-value data generation. With CADS, we construct MMSynthetic-20K and train our model R1-SyntheticVL, which demonstrates superior performance on various benchmarks.

研究の動機と目的

Multimodal Large Language Models (MLLMs) のデータ不足に対処し、自動でマルチモーダル訓練データを生成可能にする。
高品質・多様・難易度の高いサンプルを生み出す一般的なデータ合成フレームワークを開発し、MLLM の推論能力を向上させる。
高品質な合成 MMSynthetic-20K データセットを作成し、実世界のベンチマークに対して MLLMs を訓練・評価する。
合成データで学習したモデルが実データベースレベルを超える性能を発揮し、実データを補完できることを示す。

提案手法

CADS を二つの循環フェーズで提案する：CAD-Generate（集団データ生成）と CAD-Judge（集団データ判断）。
高価値な敵対的事例に基づいて生成文脈を精錬する Adversarial Context Optimization を使用。
多様性と品質を保証するために複数のMLLMを生成・判断に活用。
CADS 生成データから MMSynthetic-20K を構築し、GRPO（強化学習）を用いて R1-SyntheticVL を訓練。
一般・数学・チャート理解タスクを含む6つのベンチマークで評価し、最先端のオープンソース・クローズドソースモデルと比較。

実験結果

リサーチクエスチョン

RQ1集団的敵対的フレームワークで生成された合成マルチモーダルデータは、複雑な推論タスクでの MLLM の性能向上につながるか。
RQ2CADS は単一モデル生成法より高品質・多様・難易度の高いデータを生み出すか。
RQ3敵対的文脈最適化がデータ品質とモデル性能に与える影響はどの程度か。
RQ4合成データは MLLMs にとって実データを補完・代替できるか。
RQ5合成データサイズの拡大がモデル性能に与えるスケーラビリティはどうなるか。

主な発見

Model	MathVista	MathVerse	MathVision	MMMU	MMMU-Pro	CharXiv	Avg	Std-10	Vision	Reas.	Desc.
R1-SyntheticVL (Ours)	75.6	51.2	29.1	56.3	42.0	38.7	47.8	75.5	52.0

CADS は直接的な Nano Banana Pro の使用より高品質な合成マルチモーダルデータを生み出し、ベンチマークスコアの改善で示される。
MMSynthetic-20K データで訓練した R1-SyntheticVL は複数の推論ベンチマーク、特に MMMU-Pro でトップ性能を達成。
アブレーション実験は CAD-Generate および CAD-Judge がデータ品質を著しく改善し、Adversarial Context Optimization が追加の利益を提供。
MMSynthetic-20K のみを使用した場合、MathVista で実データより合成データが上回ることがあり、実データと組み合わせると結果がさらに改善。
拡張実験では、合成データサイズが 20K まで増えるにつれて性能が向上し続け、飽和しないことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。