[논문 리뷰] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching
UniDFlow는 태스크-특정 어댑터로 이해와 생성을 분리하고 참조 기반 다중모달 선호 정렬을 사용하여 제로샷 편집 및 컨텍스트 내 생성을 포함한 여덟 벤치마크에서 SOTA를 달성하는 통합 이산 확산 프레임워크이다.
We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.
연구 동기 및 목표
- 다양한 추론과 고충실도 생성 및 편집을 통합하는 통합 다중모달 모델의 필요성에 대한 동기를 제시한다.
- 경량 어댑터를 통해 이해와 생성을 분리하는 매개변수 효율적인 프레임워크를 제안한다.
- 대규모 재학습 없이도 충실도와 제어 가능성을 개선하기 위한 참조 기반 다중모달 선호 정렬을 개발한다.
- 다수의 벤치마크에서 최첨단 성능과 편집 및 컨텍스트 내 생성에서 제로샷 능력을 시연한다.]
- method:[
- 다중모달 토큰의 생성기로서 사전 학습된 비전-언어 트랜스포머를 사용한다.
- 세 가지 단계로 학습한다: 텍스트 정렬을 통한 이해, 시각 정렬을 통한 생성, 그리고 참조 기반 선호 최적화를 통한 이해-생성의 공동 정렬.
- 백본을 고정하고 태스크-특정 적응을 위해 로우랭크 어댑터(LoRA)를 활용한다.
- 확산 시간에 영향을 주지 않고 사전 학습된 표현을 손상시키지 않도록 Time-Step Guided RMSNorm (TSG-RMSNorm)을 도입한다.
- 태스크 전반에 걸친 통합 이산 흐름 매칭 목표를 채택하고 어댑터를 동적으로 결합하는 라우터(MoRA)를 활용한다.
- 텍스트, 비전, 반영을 고정된 참조 정책에 맞추어 정렬하는 mRefDPO(참조 기반 다중모달 선호 최적화)를 공식화한다.
제안 방법
- 다중모달 토큰의 생성기로써 사전 학습된 비전–언어 트랜스포머를 사용한다.
- 3단계로 학습한다: 텍스트 정렬을 통한 이해, 시각 정렬을 통한 생성, 참조 기반 선호 최적화를 통한 이해-생성의 공동 학습.
- 백본을 고정하고 태스크-특정 적응을 위해 로우랭크 어댑터(LoRA)를 활용한다.
- 확산 시간에 영향을 주지 않으면서 사전 학습된 표현을 손상시키지 않는 Time-Step Guided RMSNorm(TSG-RMSNorm)을 도입한다.
- 태스크 간의 통합 이산 흐름 매칭 목표를 채택하고 어댑터를 동적으로 결합하는 라우터(MoRA)를 활용한다.
- mRefDPO(참조 기반 다중모달 선호 정합화)로 텍스트, 비전, 반영을 고정된 참조 정책에 맞추어 정렬한다.

실험 결과
연구 질문
- RQ1이해와 생성이 서로 얽히지 않으면서 단일 이산 확산 프레이크워크에서 어떻게 통합될 수 있는가?
- RQ2경량 어댑터와 참조 기반 선호 목표만으로 동일한 조건에서 충실하고 제어 가능한 다중모달 편집과 생성을 달성할 수 있는가?
- RQ3다중모달 작업에 대해 이해, 생성, 정렬의 3단계 학습이 어떤 이점을 제공하는가?
- RQ4UniDFlow는 다중모달 이해, 생성, 편집 벤치마크에서 최첨단 모델과 비교해 어떤 성능을 보이는가?
주요 결과
| 모델 | 매개변수 | MME-P | MME-S | MMBench | MMMU | MM-Vet | MathVista | MMVP |
|---|---|---|---|---|---|---|---|---|
| Qwen2.5-VL | 3B | – | 2157 | 79.1 | 53.1 | 61.8 | 62.3 | – |
| BLIP-3 | 4B | – | – | 76.8 | 41.1 | – | 39.6 | – |
| DeepSeek-VL2 | 4B | – | – | 51.1 | 60.0 | 62.8 | – | – |
| Qwen3-VL | 4B | – | – | 85.1 | 64.1 | 72.5 | – | – |
| VILA-U | 7B | 1336 | – | 66.6 | 32.2 | 27.7 | – | 22.0 |
| Chameleon | 7B | – | – | 35.7 | 28.4 | 8.3 | – | 0.0 |
| Janus-Pro | 7B | 1567 | – | 79.2 | 41.0 | 50.0 | – | – |
| TokenFlow-XL | 13B | 1546 | – | 68.9 | 38.7 | 40.7 | – | – |
| BAGEL | 7B+7B | 1687 | 2388 | 85.0 | 55.3 | 67.2 | 73.1 | 69.3 |
| OmniGen-v2 | 8B | – | – | 53.1 | 61.5 | – | – | – |
| EMMA | 4B | – | – | 85.8 | 65.1 | 73.0 | 75.8 | – |
| MammothModa-2 | 4B | 1753 | 1998 | 86.6 | 71.23 | 79.4 | 81.8 | 77.5 |
| Muddit | 4B | 1700 | 1832 | 82.8 | 66.6 | 76.2 | 79.1 | 74.1 |
| UniDFlow | 4B | 1803 | 2555 | 91.2 | 74.3 | 82.7 | 85.9 | 80.2 |
- UniDFlow는 이해, 생성, 편집에 걸친 여덟 벤치마크에서 최첨단 성능을 달성한다.
- GenEval 및 DPGBench 생성 벤치마크에서 4B 모델로 0.95 GenEval 및 91.19 DPGBench 점수를 달성하며 여러 베이스라인을 능가한다.
- Stage III에서 mRef-DPO를 통해 출력이 고정된 참조 정책에 정렬되어 충실도와 편집 제어가 향상된다.
- UniDFlow는 명시적 작업별 학습 없이도 제로샷으로 인페인팅, 컨텍스트 내 이미지 생성, 참조 기반 편집 및 구성적 생성에 강한 일반화를 보인다.
- 4B UniDFlow 모델은 여러 지표에서 더 큰 모델에 비해 경쟁력 있거나 우수한 성능을 보이며(예: 표 1 결과는 강한 MME-P/MME-S 등을 보여준다).
- 매개변수 효율적이고 모듈식 어댑터 디자인(각 단계당 LoRA 및 MoRA 라우터)이 얽힘을 방지하고 이해와 생성의 동적 균형을 지원한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.