[論文レビュー] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
UniDFlow は、タスク固有のアダプタを用いて理解と生成を分離した統一的離散拡散フレームワークで、参照ベースのマルチモーダル好み整列を用いて eight benchmarks の SOTA を達成。ゼロショット編集と文脈内生成を含む。
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.
研究の動機と目的
- 統合的 multimodal モデルが、高忠実度の生成と編集を統合して推論を行う必要性を動機付ける。
- 軽量なアダプタを用いて理解と生成をデカップリングするパラメータ効率の高いフレームワークを提案する。
- 大規模再学習を要さず、参照ベースのマルチモーダル好み整列を開発する。
- 複数の benchmarks での最先端性能と、編集と文脈内生成におけるゼロショット能力を示す。
提案手法
- マルチモーダルトークン上のジェネレーターとして事前学習済みのビジョン–言語トランスフォーマーを使用する。
- 3 段階で学習する:テキスト整列による理解、ビジョン整列による生成、および参照ベースの好み最適化による理解–生成の結合。
- バックボーンを凍結したまま、タスク固有の適応のために低ランク・アダプタ(LoRA)を用いる。
- 拡散時間を乱さずに事前学習済み表現を条件付けする Time-Step Guided RMSNorm(TSG-RMSNorm)を導入する。
- 統一された離散フロー整合目的をタスク全体で採用し、アダプタを動的に組み合わせるルータ(MoRA)を導入する。
- mRefDPO(参照ベースのマルチモーダル好み最適化)を定式化し、テキスト・ビジョン・反映を凍結参照ポリシーに対して整合させる。

実験結果
リサーチクエスチョン
- RQ1理解と生成を、表現を絡ませすぎずに単一の離散拡散フレームワークで統合できるのか。
- RQ2軽量アダプタと参照ベースの好み目的が、同一条件付け下で忠実で制御可能なマルチモーダル編集と生成をもたらすのか。
- RQ3理解・生成・整合の3段階学習がマルチモーダルタスクにどのような利点をもたらすのか。
- RQ4UniDFlow はマルチモーダル理解・生成・編集のベンチマークで、最先端モデルと比較してどうなるのか。
主な発見
| Model | Params | MME-P | MME-S | MMBench | MMMU | MM-Vet | MathVista | MMVP |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL | 3B | – | 2157 | 79.1 | 53.1 | 61.8 | 62.3 | – |
| BLIP-3 | 4B | – | – | 76.8 | 41.1 | – | 39.6 | – |
| DeepSeek-VL2 | 4B | – | – | 51.1 | 60.0 | 62.8 | – | – |
| Qwen3-VL | 4B | – | – | 85.1 | 64.1 | 72.5 | – | – |
| VILA-U | 7B | 1336 | – | 66.6 | 32.2 | 27.7 | – | 22.0 |
| Chameleon | 7B | – | – | 35.7 | 28.4 | 8.3 | – | 0.0 |
| Janus-Pro | 7B | 1567 | – | 79.2 | 41.0 | 50.0 | – | – |
| TokenFlow-XL | 13B | 1546 | – | 68.9 | 38.7 | 40.7 | – | – |
| BAGEL | 7B+7B | 1687 | 2388 | 85.0 | 55.3 | 67.2 | 73.1 | 69.3 |
| OmniGen-v2 | 8B | – | – | 53.1 | 61.5 | – | – | – |
| EMMA | 4B | – | – | 85.8 | 65.1 | 73.0 | 75.8 | – |
| MammothModa-2 | 4B | 1753 | 1998 | 86.6 | 71.23 | 79.4 | 81.8 | 77.5 |
| Muddit | 4B | 1700 | 1832 | 82.8 | 66.6 | 76.2 | 79.1 | 74.1 |
| UniDFlow | 4B | 1803 | 2555 | 91.2 | 74.3 | 82.7 | 85.9 | 80.2 |
- UniDFlow は理解・生成・編集の8 Benchmarks で最先端の性能を達成。
- GenEval および DPGBench の生成 Benchmarks で、4B モデルの UniDFlow は 0.95 GenEval および 91.19 DPGBench を達成し、いくつかのベースラインを上回る。
- mRef-DPO による Stage III は、凍結参照ポリシーへ出力を整合させることで忠実性と編集制御性を向上させる。
- UniDFlow は、特定タスクの訓練を明示的に行わなくても、ゼロショットのインペインティング・文脈内画像生成・参照ベース編集・組成生成などの強いゼロショット一般化を示す。
- 4B の UniDFlow モデルは、いくつかの指標で大規模モデルと相対的に競争力があるまたは上回る(例:表1 の結果は強力な MME-P/MME-S などを示す)。
- パラメータ効率的でモジュラーなアダプタ設計(各段階の LoRA と MoRA ルータ)が絡み合いを防ぎ、理解と生成の動的なバランスを支える。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。