Skip to main content
QUICK REVIEW

[论文解读] R1-SyntheticVL: Is Synthetic Data from Generative Models Ready for Multimodal Large Language Model?

Jingyi Zhang, Tianyi Lin|arXiv (Cornell University)|Feb 3, 2026
Topic Modeling被引用 0
一句话总结

论文提出 CADS,一种 Collective Adversarial Data Synthesis 框架,用于生成高质量、多样化且具挑战性的多模态数据以用于 MLLMs,产生 MMSynthetic-20K,并用 GRPO 训练得到 R1-SyntheticVL 模型.

ABSTRACT

In this work, we aim to develop effective data synthesis techniques that autonomously synthesize multimodal training data for enhancing MLLMs in solving complex real-world tasks. To this end, we propose Collective Adversarial Data Synthesis (CADS), a novel and general approach to synthesize high-quality, diverse and challenging multimodal data for MLLMs. The core idea of CADS is to leverage collective intelligence to ensure high-quality and diverse generation, while exploring adversarial learning to synthesize challenging samples for effectively driving model improvement. Specifically, CADS operates with two cyclic phases, i.e., Collective Adversarial Data Generation (CAD-Generate) and Collective Adversarial Data Judgment (CAD-Judge). CAD-Generate leverages collective knowledge to jointly generate new and diverse multimodal data, while CAD-Judge collaboratively assesses the quality of synthesized data. In addition, CADS introduces an Adversarial Context Optimization mechanism to optimize the generation context to encourage challenging and high-value data generation. With CADS, we construct MMSynthetic-20K and train our model R1-SyntheticVL, which demonstrates superior performance on various benchmarks.

研究动机与目标

  • 通过实现自主生成多模态训练数据来解决多模态大语言模型(MLLMs)的数据稀缺问题。
  • 开发一个通用数据合成框架,能够产生高质量、多样化且具有挑战性的样本以提升 MLLM 的推理能力。
  • 创建高质量的合成 MMSynthetic-20K 数据集,以训练并在真实世界基准上评估 MLLMs。
  • 证明基于合成数据训练的模型可以超越真实数据基线并对真实数据形成互补。

提出的方法

  • 提出 Collective Adversarial Data Synthesis (CADS),包含两个循环阶段:CAD-Generate(集体数据生成)与 CAD-Judge(集体数据判断)。
  • 使用对抗上下文优化根据高价值对抗实例来细化生成上下文。
  • 利用多个 MLLMs 进行生成与判断,以确保多样性与质量。
  • 从 CADS 生成的数据构建 MMSynthetic-20K,并使用 GRPO(强化学习)训练 R1-SyntheticVL。
  • 在涵盖通用、数学和图表理解任务的六个基准上进行评估;并与最先进的开源与闭源模型进行对比。

实验结果

研究问题

  • RQ1集体对抗框架生成的合成多模态数据是否能够提升 MLLM 在复杂推理任务上的性能?
  • RQ2CADS 是否比单模型生成方法产生更高质量、更多样且更具挑战性的数据?
  • RQ3对抗上下文优化对数据质量和模型性能的影响是什么?
  • RQ4合成数据如何对 MLLMs 辅助或替代真实数据?
  • RQ5随着合成数据规模增大,对模型性能的可扩展性影响如何?

主要发现

ModelMathVistaMathVerseMathVisionMMMUMMMU-ProCharXivAvgStd-10VisionReas.Desc.
R1-SyntheticVL (Ours)75.651.229.156.342.038.747.875.552.0
  • CADS 相较于直接使用 Nano Banana Pro 的数据,能够提供更高质量的合成多模态数据,基准分数有所提升。
  • 通过 MMSynthetic-20K 数据训练的 R1-SyntheticVL 在若干推理基准上取得顶尖表现,尤其在 MMMU-Pro 上表现突出。
  • 消融研究显示 CAD-Generate 与 CAD-Judge 能显著提升数据质量,对抗上下文优化进一步带来额外收益。
  • 在仅使用 MMSynthetic-20K 时,合成数据可以在 MathVista 上超越真实数据的表现,且与真实数据结合时结果还能进一步提升。
  • 扩展性实验表明,随着合成数据规模增加至 20K,性能持续提升,未显现饱和趋势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。