QUICK REVIEW

[論文レビュー] Synergizing Understanding and Generation with Interleaved Analyzing-Drafting Thinking

Shengqiong Wu, Bobo Li|arXiv (Cornell University)|Feb 24, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

AD-Loopは、理解と生成を協調的に統合するための分析–下書きループを導入し、監督付きインターレービング思考とRLでタスク横断的に適用可能なループを適用する。

ABSTRACT

Unified Vision-Language Models (UVLMs) aim to advance multimodal learning by supporting both understanding and generation within a single framework. However, existing approaches largely focus on architectural unification while overlooking the need for explicit interaction between the two capabilities during task solving. As a result, current models treat understanding and generation as parallel skills rather than synergistic processes. To achieve real synergy, we introduce the interleaved Analyzing-Drafting problem-solving loop (AD-Loop), a new think paradigm that dynamically alternates between analytic and drafting operations. By interleaving textual thoughts with visual thoughts, AD-Loop enables models to iteratively refine both comprehension and outputs, fostering genuine synergy. To train this mechanism, we design a two-stage strategy: supervised learning on interleaved thought data to initialize alternation, followed by reinforcement learning to promote adaptive and autonomous control. Extensive experiments demonstrate that AD-Loop consistently improves performance across standard benchmarks for both understanding and generation, with strong transferability to various UVLMs architectures. Visual analyses further validate the effectiveness of implicit visual thoughts. These results highlight AD-Loop as a principled and broadly applicable strategy for synergizing comprehension and creation. The project page is at https://sqwu.top/AD-Loop.

研究の動機と目的

UVLMにおける理解と生成の真の相互作用の必要性を、単なる同所置換ではなく動機づける。
分析（テキスト思考）と下書き（視覚思考）を交互に行うAD-Loop思考パラダイムを提案する。
2段階の学習戦略を開発する：インターレーブド思考の監督付き初期化と、適応制御のための強化学習。
UVLM全体でアーキテクチャに依存しない適用性をデモンストレーションし、理解と生成のベンチマークの改善を示す。

提案手法

タスク解決中にテキスト思考と潜在視覚思考を交互に行うインターレーブド分析–下書きループを定義する。
思考の痕跡を、交互のテキスト思考([T-T])と視覚思考([V-T])を含む<think>ブロックと、最終の[Answer]から構成する。
思考過程を要約するため、思考過程中の完全なピクセルレンダリングを避け、<K<<N} の密度を持つ潜在視覚思考セット {v_j} を用いる。
Stage-1: AD-Loop能力を初期化するため、インターレーブド思考コーパスでの監督付きファインチューニング。
Stage-2: V+（AD-Loop使用）とV-（単一思考モード）を切り替える適応制御を可能にするハイブリッド報酬付き強化学習と、グループ相対的好み最適化を用いる。
データセット作成はピクセル視覚思考を凍結エンコーダーを介して潜在トークンへ変換し、密度ピーククラスタリングで意味的に一貫した視覚思考を生成する。
評価には理解・生成ベンチマーク、思考タイプのアブレーション、定性的な視覚思考分析を含む。

実験結果

リサーチクエスチョン

RQ1AD-Loopは統一マルチモーダルモデルの構造に対して拡張可能（アーキテクチャに依存しない適用性）か。
RQ2生成エンコーダ由来の視覚思考は理解エンコーダ由来のものより理解と生成の両タスクで上回るのか。
RQ3暗黙的な視覚思考はどのような形で現れ、推論にどのように寄与するのか。
RQ4視覚思考はいつ必要となり、タスク間で適応ポリシーはどのように使用を決定するのか。
RQ5AD-Loopはテキストから画像生成およびマルチモーダル理解のケーススタディにどのような影響を与えるのか。

主な発見

Model	#Params	POPE ↑	MME-P ↑	MMB ↑	SEED ↑	GQA ↑	MMMU ↑	MM-Vet ↑
LLaVA-v1.5	7B	85.9	1510.7	64.3	58.6	62.0	35.4	31.1
Qwen-VL-Chat	7B	-	1487.5	60.6	58.2	57.5	-	-
IDEFICS	8B	-	-	48.2	-	38.4	-	-
InstructBLIP	13B	78.9	1212.8	-	-	49.5	-	25.6
Emu3	8B	85.2	1244.0	58.5	68.2	60.3	31.6	37.2
Show-o	1.3B	80.0	1097.2	-	-	58.0	26.7	-
Liquid	8B	-	1448.0	-	-	61.1	-	-
MMaDA	8B	86.1	1410.7	68.5	64.2	61.3	30.2	-
Janus-Pro	7B	87.4	1567.1	79.2	72.1	62.0	41.0	50.0
BAGEL	7B	-	1687.0	85.0	-	-	55.3	67.2
AD-Loop (Ours)	7B	90.1	1696.0	87.6	74.4	63.8	57.3	69.7

AD-Loopは理解と生成のベンチマークで一貫した改善を示し、理解タスクで平均+2.3%、GenEval総合スコア86%など。
テキスト思考と視覚思考をインターレーブさせることで理解と生成の間の衝突を緩和し、相乗効果を高める。
適応ポリシーは、視覚思考が最大の利益をもたらす場合、特に空間的・機械的推論でAD-Loopの使用を選択する。
生成エンコーダ由来の視覚思考は理解エンコーダ由来の視覚思考より性能が高く、収束も速い。
潜在視覚思考は意味的に一貫した領域や粗いピクセルレベル構造を捉え、信頼できる推論に基づく生成を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。