[論文レビュー] R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?
本論文は CADS を提案。Collective Adversarial Data Synthesis フレームワークを用いて、MLLMs 向けの高品質・多様・難易度の高い多模データを生成し、MMSynthetic-20K および GRPO で訓練したモデル R1-SyntheticVL を得る。
In this work, we aim to develop effective data synthesis techniques that autonomously synthesize multimodal training data for enhancing MLLMs in solving complex real-world tasks. To this end, we propose Collective Adversarial Data Synthesis (CADS), a novel and general approach to synthesize high-quality, diverse and challenging multimodal data for MLLMs. The core idea of CADS is to leverage collective intelligence to ensure high-quality and diverse generation, while exploring adversarial learning to synthesize challenging samples for effectively driving model improvement. Specifically, CADS operates with two cyclic phases, i.e., Collective Adversarial Data Generation (CAD-Generate) and Collective Adversarial Data Judgment (CAD-Judge). CAD-Generate leverages collective knowledge to jointly generate new and diverse multimodal data, while CAD-Judge collaboratively assesses the quality of synthesized data. In addition, CADS introduces an Adversarial Context Optimization mechanism to optimize the generation context to encourage challenging and high-value data generation. With CADS, we construct MMSynthetic-20K and train our model R1-SyntheticVL, which demonstrates superior performance on various benchmarks.
研究の動機と目的
- Multimodal Large Language Models (MLLMs) のデータ不足に対処し、自動でマルチモーダル訓練データを生成可能にする。
- 高品質・多様・難易度の高いサンプルを生み出す一般的なデータ合成フレームワークを開発し、MLLM の推論能力を向上させる。
- 高品質な合成 MMSynthetic-20K データセットを作成し、実世界のベンチマークに対して MLLMs を訓練・評価する。
- 合成データで学習したモデルが実データベースレベルを超える性能を発揮し、実データを補完できることを示す。
提案手法
- CADS を二つの循環フェーズで提案する:CAD-Generate(集団データ生成)と CAD-Judge(集団データ判断)。
- 高価値な敵対的事例に基づいて生成文脈を精錬する Adversarial Context Optimization を使用。
- 多様性と品質を保証するために複数のMLLMを生成・判断に活用。
- CADS 生成データから MMSynthetic-20K を構築し、GRPO(強化学習)を用いて R1-SyntheticVL を訓練。
- 一般・数学・チャート理解タスクを含む6つのベンチマークで評価し、最先端のオープンソース・クローズドソースモデルと比較。
実験結果
リサーチクエスチョン
- RQ1集団的敵対的フレームワークで生成された合成マルチモーダルデータは、複雑な推論タスクでの MLLM の性能向上につながるか。
- RQ2CADS は単一モデル生成法より高品質・多様・難易度の高いデータを生み出すか。
- RQ3敵対的文脈最適化がデータ品質とモデル性能に与える影響はどの程度か。
- RQ4合成データは MLLMs にとって実データを補完・代替できるか。
- RQ5合成データサイズの拡大がモデル性能に与えるスケーラビリティはどうなるか。
主な発見
| Model | MathVista | MathVerse | MathVision | MMMU | MMMU-Pro | CharXiv | Avg | Std-10 | Vision | Reas. | Desc. |
|---|---|---|---|---|---|---|---|---|---|---|---|
| R1-SyntheticVL (Ours) | 75.6 | 51.2 | 29.1 | 56.3 | 42.0 | 38.7 | 47.8 | 75.5 | 52.0 |
- CADS は直接的な Nano Banana Pro の使用より高品質な合成マルチモーダルデータを生み出し、ベンチマークスコアの改善で示される。
- MMSynthetic-20K データで訓練した R1-SyntheticVL は複数の推論ベンチマーク、特に MMMU-Pro でトップ性能を達成。
- アブレーション実験は CAD-Generate および CAD-Judge がデータ品質を著しく改善し、Adversarial Context Optimization が追加の利益を提供。
- MMSynthetic-20K のみを使用した場合、MathVista で実データより合成データが上回ることがあり、実データと組み合わせると結果がさらに改善。
- 拡張実験では、合成データサイズが 20K まで増えるにつれて性能が向上し続け、飽和しないことを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。