Skip to main content
QUICK REVIEW

[논문 리뷰] Best of Both Worlds: Multimodal Reasoning and Generation via Unified Discrete Flow Matching

Onkar Susladkar, Tushar Prakash|arXiv (Cornell University)|2026. 02. 12.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

UniDFlow는 태스크-특정 어댑터로 이해와 생성을 분리하고 참조 기반 다중모달 선호 정렬을 사용하여 제로샷 편집 및 컨텍스트 내 생성을 포함한 여덟 벤치마크에서 SOTA를 달성하는 통합 이산 확산 프레임워크이다.

ABSTRACT

We propose UniDFlow, a unified discrete flow-matching framework for multimodal understanding, generation, and editing. It decouples understanding and generation via task-specific low-rank adapters, avoiding objective interference and representation entanglement, while a novel reference-based multimodal preference alignment optimizes relative outcomes under identical conditioning, improving faithfulness and controllability without large-scale retraining. UniDFlpw achieves SOTA performance across eight benchmarks and exhibits strong zero-shot generalization to tasks including inpainting, in-context image generation, reference-based editing, and compositional generation, despite no explicit task-specific training.

연구 동기 및 목표

  • 다양한 추론과 고충실도 생성 및 편집을 통합하는 통합 다중모달 모델의 필요성에 대한 동기를 제시한다.
  • 경량 어댑터를 통해 이해와 생성을 분리하는 매개변수 효율적인 프레임워크를 제안한다.
  • 대규모 재학습 없이도 충실도와 제어 가능성을 개선하기 위한 참조 기반 다중모달 선호 정렬을 개발한다.
  • 다수의 벤치마크에서 최첨단 성능과 편집 및 컨텍스트 내 생성에서 제로샷 능력을 시연한다.]
  • method:[
  • 다중모달 토큰의 생성기로서 사전 학습된 비전-언어 트랜스포머를 사용한다.
  • 세 가지 단계로 학습한다: 텍스트 정렬을 통한 이해, 시각 정렬을 통한 생성, 그리고 참조 기반 선호 최적화를 통한 이해-생성의 공동 정렬.
  • 백본을 고정하고 태스크-특정 적응을 위해 로우랭크 어댑터(LoRA)를 활용한다.
  • 확산 시간에 영향을 주지 않고 사전 학습된 표현을 손상시키지 않도록 Time-Step Guided RMSNorm (TSG-RMSNorm)을 도입한다.
  • 태스크 전반에 걸친 통합 이산 흐름 매칭 목표를 채택하고 어댑터를 동적으로 결합하는 라우터(MoRA)를 활용한다.
  • 텍스트, 비전, 반영을 고정된 참조 정책에 맞추어 정렬하는 mRefDPO(참조 기반 다중모달 선호 최적화)를 공식화한다.

제안 방법

  • 다중모달 토큰의 생성기로써 사전 학습된 비전–언어 트랜스포머를 사용한다.
  • 3단계로 학습한다: 텍스트 정렬을 통한 이해, 시각 정렬을 통한 생성, 참조 기반 선호 최적화를 통한 이해-생성의 공동 학습.
  • 백본을 고정하고 태스크-특정 적응을 위해 로우랭크 어댑터(LoRA)를 활용한다.
  • 확산 시간에 영향을 주지 않으면서 사전 학습된 표현을 손상시키지 않는 Time-Step Guided RMSNorm(TSG-RMSNorm)을 도입한다.
  • 태스크 간의 통합 이산 흐름 매칭 목표를 채택하고 어댑터를 동적으로 결합하는 라우터(MoRA)를 활용한다.
  • mRefDPO(참조 기반 다중모달 선호 정합화)로 텍스트, 비전, 반영을 고정된 참조 정책에 맞추어 정렬한다.
Figure 1 : Instruction-guided editing attention maps showing UniDFlow more precisely focuses on relevant regions than prior models.
Figure 1 : Instruction-guided editing attention maps showing UniDFlow more precisely focuses on relevant regions than prior models.

실험 결과

연구 질문

  • RQ1이해와 생성이 서로 얽히지 않으면서 단일 이산 확산 프레이크워크에서 어떻게 통합될 수 있는가?
  • RQ2경량 어댑터와 참조 기반 선호 목표만으로 동일한 조건에서 충실하고 제어 가능한 다중모달 편집과 생성을 달성할 수 있는가?
  • RQ3다중모달 작업에 대해 이해, 생성, 정렬의 3단계 학습이 어떤 이점을 제공하는가?
  • RQ4UniDFlow는 다중모달 이해, 생성, 편집 벤치마크에서 최첨단 모델과 비교해 어떤 성능을 보이는가?

주요 결과

모델매개변수MME-PMME-SMMBenchMMMUMM-VetMathVistaMMVP
Qwen2.5-VL3B215779.153.161.862.3
BLIP-34B76.841.139.6
DeepSeek-VL24B51.160.062.8
Qwen3-VL4B85.164.172.5
VILA-U7B133666.632.227.722.0
Chameleon7B35.728.48.30.0
Janus-Pro7B156779.241.050.0
TokenFlow-XL13B154668.938.740.7
BAGEL7B+7B1687238885.055.367.273.169.3
OmniGen-v28B53.161.5
EMMA4B85.865.173.075.8
MammothModa-24B1753199886.671.2379.481.877.5
Muddit4B1700183282.866.676.279.174.1
UniDFlow4B1803255591.274.382.785.980.2
  • UniDFlow는 이해, 생성, 편집에 걸친 여덟 벤치마크에서 최첨단 성능을 달성한다.
  • GenEval 및 DPGBench 생성 벤치마크에서 4B 모델로 0.95 GenEval 및 91.19 DPGBench 점수를 달성하며 여러 베이스라인을 능가한다.
  • Stage III에서 mRef-DPO를 통해 출력이 고정된 참조 정책에 정렬되어 충실도와 편집 제어가 향상된다.
  • UniDFlow는 명시적 작업별 학습 없이도 제로샷으로 인페인팅, 컨텍스트 내 이미지 생성, 참조 기반 편집 및 구성적 생성에 강한 일반화를 보인다.
  • 4B UniDFlow 모델은 여러 지표에서 더 큰 모델에 비해 경쟁력 있거나 우수한 성능을 보이며(예: 표 1 결과는 강한 MME-P/MME-S 등을 보여준다).
  • 매개변수 효율적이고 모듈식 어댑터 디자인(각 단계당 LoRA 및 MoRA 라우터)이 얽힘을 방지하고 이해와 생성의 동적 균형을 지원한다.
Figure 2 : Overview of Stage I (understanding via text alignment) and Stage II (generation via vision alignment) of UniDFlow.
Figure 2 : Overview of Stage I (understanding via text alignment) and Stage II (generation via vision alignment) of UniDFlow.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.