QUICK REVIEW

[논문 리뷰] Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking

Shengqiong Wu, Bobo Li|arXiv (Cornell University)|2026. 02. 24.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

AD-Loop는 이해와 생성을 Unified Vision–Language Models에서 시너지 있게 결합하기 위해 인터리브된 분석–초안 루프를 도입합니다. 감독 학습된 인터리브 thinking과 RL을 통해 루프를 다양한 태스크에 적응적으로 적용하도록 학습합니다.

ABSTRACT

Unified Vision-Language Models (UVLMs) aim to advance multimodal learning by supporting both understanding and generation within a single framework. However, existing approaches largely focus on architectural unification while overlooking the need for explicit interaction between the two capabilities during task solving. As a result, current models treat understanding and generation as parallel skills rather than synergistic processes. To achieve real synergy, we introduce the interleaved Analyzing-Drafting problem-solving loop (AD-Loop), a new think paradigm that dynamically alternates between analytic and drafting operations. By interleaving textual thoughts with visual thoughts, AD-Loop enables models to iteratively refine both comprehension and outputs, fostering genuine synergy. To train this mechanism, we design a two-stage strategy: supervised learning on interleaved thought data to initialize alternation, followed by reinforcement learning to promote adaptive and autonomous control. Extensive experiments demonstrate that AD-Loop consistently improves performance across standard benchmarks for both understanding and generation, with strong transferability to various UVLMs architectures. Visual analyses further validate the effectiveness of implicit visual thoughts. These results highlight AD-Loop as a principled and broadly applicable strategy for synergizing comprehension and creation. The project page is at https://sqwu.top/AD-Loop.

연구 동기 및 목표

UVLM에서 이해와 생성의 진정한 상호 작용이 단순한 동시 배치가 아니라 필요하다는 점을 동기화한다.
분석(텍스트 사고)과 초안(시각 사고)을 번갈아 수행하는 AD-Loop 사고 패러다임을 제안한다.
2단계 학습 전략 개발: 인터리브 thinking 초기화에 대한 감독 학습과 적응 제어를 위한 강화 학습.
UVLM 전체에 걸친 아키텍처-무관한 적용 가능성과 이해 및 생성 벤치마크에서의 개선을 보여준다.

제안 방법

작업 해결 과정에서 텍스트 사고와 잠재 시각 사고를 번갈아 사용하는 인터리브 분석–초안 루프를 정의한다.
thinking 흔적을 <think> 블록으로 나타내되 텍스트 사고([T-T])와 시각 사고([V-T])가 교차되며 최종 [Answer]가 뒤따르는 형식을 사용한다.
생각 과정에서 전체 픽셀 렌더링을 피하고 요약된 시각적 사고를 {v_j}의 압축 잠재 시각 사고 집합으로 표현한다(K << N).
1단계: AD-Loop 기능을 초기화하기 위해 인터리브 사고 코퍼스에 대한 감독 세부 조정(Stage-1).
2단계: V+ 대 V- 모드 호출 시점을 제어하는 적응 제어를 가능하게 하는 하이브리드 보상으로 강화 학습(Stage-2), 그룹-상대 선호도 최적화를 이용.
Pixel 시각 사고를 잠재 토큰으로 변환하기 위해 고정 인코더와 밀도 피크 클러스터링을 사용해 의미적으로 일관된 시각 사고를 생성하는 데이터셋 구성.
평가에는 이해 및 생성 벤치마크, 사고 유형에 대한 제거 실험, 질적 시각 사고 분석이 포함된다.

실험 결과

연구 질문

RQ1AD-Loop가 다른 구조의 통합 멀티모달 모델에 확장될 수 있는가(아키텍처-무관한 적용성)?
RQ2생성 엔코더에서 도출된 시각 사고가 이해 엔코더에서 도출된 시각 사고보다 이해 및 생성 태스크에 대해 우수한가?
RQ3암시적 시각 사고의 형태는 무엇이며 추론에 어떻게 기여하는가?
RQ4시각 사고가 필요한 경우는 언제이며, 태스크 간 사용 여부를 결정하는 적응 정책은 어떻게 작동하는가?
RQ5AD-Loop가 텍스트-이미지 생성 및 멀티모달 이해의 사례 연구에 어떤 영향을 미치는가?

주요 결과

모델	#매개변수	POPE ↑	MME-P ↑	MMB ↑	SEED ↑	GQA ↑	MMMU ↑	MM-Vet ↑
LLaVA-v1.5	7B	85.9	1510.7	64.3	58.6	62.0	35.4	31.1
Qwen-VL-Chat	7B	-	1487.5	60.6	58.2	57.5	-	-
IDEFICS	8B	-	-	48.2	-	38.4	-	-
InstructBLIP	13B	78.9	1212.8	-	-	49.5	-	25.6
Emu3	8B	85.2	1244.0	58.5	68.2	60.3	31.6	37.2
Show-o	1.3B	80.0	1097.2	-	-	58.0	26.7	-
Liquid	8B	-	1448.0	-	-	61.1	-	-
MMaDA	8B	86.1	1410.7	68.5	64.2	61.3	30.2	-
Janus-Pro	7B	87.4	1567.1	79.2	72.1	62.0	41.0	50.0
BAGEL	7B	-	1687.0	85.0	-	-	55.3	67.2
AD-Loop (Ours)	7B	90.1	1696.0	87.6	74.4	63.8	57.3	69.7

AD-Loop는 이해 및 생성 벤치마크에서 일관된 개선을 보여준다. 예를 들어 이해 태스크에서 평균 +2.3% 개선 및 GenEval 총점 86%.
텍스트 사고와 시각 사고의 인터리빙은 이해와 생성 간의 충돌을 완화하고 시너지를 강화한다.
적응 정책은 시각 사고가 최대 이익을 제공하는 경우에 AD-Loop 사용을 선택하며, 특히 공간적 및 기제적 추론에서 그렇다.
생성 엔코더에서 도출된 시각 사고가 이해 엔코더보다 더 나은 성능과 더 빠른 수렴을 보인다.
잠재 시각 사고는 의미적으로 일관된 영역과 대략적인 픽셀 수준 구조를 포착하여 추론-가이드 생성을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.