QUICK REVIEW

[논문 리뷰] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Onkar Susladkar, Tushar Prakash|arXiv (Cornell University)|2026. 02. 12.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

UniDFlow는 태스크-특정 어댑터로 이해와 생성을 분리하고 참조 기반 다중모달 선호 정렬을 사용하여 제로샷 편집 및 컨텍스트 내 생성을 포함한 여덟 벤치마크에서 SOTA를 달성하는 통합 이산 확산 프레임워크이다.

ABSTRACT

We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.

연구 동기 및 목표

다양한 추론과 고충실도 생성 및 편집을 통합하는 통합 다중모달 모델의 필요성에 대한 동기를 제시한다.
경량 어댑터를 통해 이해와 생성을 분리하는 매개변수 효율적인 프레임워크를 제안한다.
대규모 재학습 없이도 충실도와 제어 가능성을 개선하기 위한 참조 기반 다중모달 선호 정렬을 개발한다.
다수의 벤치마크에서 최첨단 성능과 편집 및 컨텍스트 내 생성에서 제로샷 능력을 시연한다.]
method:[
다중모달 토큰의 생성기로서 사전 학습된 비전-언어 트랜스포머를 사용한다.
세 가지 단계로 학습한다: 텍스트 정렬을 통한 이해, 시각 정렬을 통한 생성, 그리고 참조 기반 선호 최적화를 통한 이해-생성의 공동 정렬.
백본을 고정하고 태스크-특정 적응을 위해 로우랭크 어댑터(LoRA)를 활용한다.
확산 시간에 영향을 주지 않고 사전 학습된 표현을 손상시키지 않도록 Time-Step Guided RMSNorm (TSG-RMSNorm)을 도입한다.
태스크 전반에 걸친 통합 이산 흐름 매칭 목표를 채택하고 어댑터를 동적으로 결합하는 라우터(MoRA)를 활용한다.
텍스트, 비전, 반영을 고정된 참조 정책에 맞추어 정렬하는 mRefDPO(참조 기반 다중모달 선호 최적화)를 공식화한다.

제안 방법

다중모달 토큰의 생성기로써 사전 학습된 비전–언어 트랜스포머를 사용한다.
3단계로 학습한다: 텍스트 정렬을 통한 이해, 시각 정렬을 통한 생성, 참조 기반 선호 최적화를 통한 이해-생성의 공동 학습.
백본을 고정하고 태스크-특정 적응을 위해 로우랭크 어댑터(LoRA)를 활용한다.
확산 시간에 영향을 주지 않으면서 사전 학습된 표현을 손상시키지 않는 Time-Step Guided RMSNorm(TSG-RMSNorm)을 도입한다.
태스크 간의 통합 이산 흐름 매칭 목표를 채택하고 어댑터를 동적으로 결합하는 라우터(MoRA)를 활용한다.
mRefDPO(참조 기반 다중모달 선호 정합화)로 텍스트, 비전, 반영을 고정된 참조 정책에 맞추어 정렬한다.

Figure 1 : Instruction-guided editing attention maps showing UniDFlow more precisely focuses on relevant regions than prior models.

실험 결과

연구 질문

RQ1이해와 생성이 서로 얽히지 않으면서 단일 이산 확산 프레이크워크에서 어떻게 통합될 수 있는가?
RQ2경량 어댑터와 참조 기반 선호 목표만으로 동일한 조건에서 충실하고 제어 가능한 다중모달 편집과 생성을 달성할 수 있는가?
RQ3다중모달 작업에 대해 이해, 생성, 정렬의 3단계 학습이 어떤 이점을 제공하는가?
RQ4UniDFlow는 다중모달 이해, 생성, 편집 벤치마크에서 최첨단 모델과 비교해 어떤 성능을 보이는가?

주요 결과

모델	매개변수	MME-P	MME-S	MMBench	MMMU	MM-Vet	MathVista	MMVP
Qwen2.5-VL	3B	–	2157	79.1	53.1	61.8	62.3	–
BLIP-3	4B	–	–	76.8	41.1	–	39.6	–
DeepSeek-VL2	4B	–	–	51.1	60.0	62.8	–	–
Qwen3-VL	4B	–	–	85.1	64.1	72.5	–	–
VILA-U	7B	1336	–	66.6	32.2	27.7	–	22.0
Chameleon	7B	–	–	35.7	28.4	8.3	–	0.0
Janus-Pro	7B	1567	–	79.2	41.0	50.0	–	–
TokenFlow-XL	13B	1546	–	68.9	38.7	40.7	–	–
BAGEL	7B+7B	1687	2388	85.0	55.3	67.2	73.1	69.3
OmniGen-v2	8B	–	–	53.1	61.5	–	–	–
EMMA	4B	–	–	85.8	65.1	73.0	75.8	–
MammothModa-2	4B	1753	1998	86.6	71.23	79.4	81.8	77.5
Muddit	4B	1700	1832	82.8	66.6	76.2	79.1	74.1
UniDFlow	4B	1803	2555	91.2	74.3	82.7	85.9	80.2

UniDFlow는 이해, 생성, 편집에 걸친 여덟 벤치마크에서 최첨단 성능을 달성한다.
GenEval 및 DPGBench 생성 벤치마크에서 4B 모델로 0.95 GenEval 및 91.19 DPGBench 점수를 달성하며 여러 베이스라인을 능가한다.
Stage III에서 mRef-DPO를 통해 출력이 고정된 참조 정책에 정렬되어 충실도와 편집 제어가 향상된다.
UniDFlow는 명시적 작업별 학습 없이도 제로샷으로 인페인팅, 컨텍스트 내 이미지 생성, 참조 기반 편집 및 구성적 생성에 강한 일반화를 보인다.
4B UniDFlow 모델은 여러 지표에서 더 큰 모델에 비해 경쟁력 있거나 우수한 성능을 보이며(예: 표 1 결과는 강한 MME-P/MME-S 등을 보여준다).
매개변수 효율적이고 모듈식 어댑터 디자인(각 단계당 LoRA 및 MoRA 라우터)이 얽힘을 방지하고 이해와 생성의 동적 균형을 지원한다.

Figure 2 : Overview of Stage I (understanding via text alignment) and Stage II (generation via vision alignment) of UniDFlow.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.