QUICK REVIEW

[論文レビュー] Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Carmine Zaccagnino, Fabio Quattrini|arXiv (Cornell University)|Feb 9, 2026

Generative Adversarial Networks and Image Synthesis被引用数 0

ひとこと要約

論文は Instance-Disentangled Attention を導入し、フロー整合エディタでの単一パス・インスタンスレベルのマルチ編集を可能にし、自然画像と新しい情報グラフィック編集ベンチマークで検証します。

ABSTRACT

Flow matching models have recently emerged as an efficient alternative to diffusion, especially for text-guided image generation and editing, offering faster inference through continuous-time dynamics. However, existing flow-based editors predominantly support global or single-instruction edits and struggle with multi-instance scenarios, where multiple parts of a reference input must be edited independently without semantic interference. We identify this limitation as a consequence of globally conditioned velocity fields and joint attention mechanisms, which entangle concurrent edits. To address this issue, we introduce Instance-Disentangled Attention, a mechanism that partitions joint attention operations, enforcing binding between instance-specific textual instructions and spatial regions during velocity field estimation. We evaluate our approach on both natural image editing and a newly introduced benchmark of text-dense infographics with region-level editing instructions. Experimental results demonstrate that our approach promotes edit disentanglement and locality while preserving global output coherence, enabling single-pass, instance-level editing.

研究の動機と目的

フローベースの画像編集で意味的干渉を起こさず、独立した領域ごとの編集を動機づけて実現する。
インスタンス分離アテンションを開発して、結合アテンションを分割し、インスタンスプロンプトを空間領域に結びつける。
分離されたアテンションがマルチインスタンス編集における編集局所性と全体的一貫性を改善することを示す。
自然画像と新しい情報グラフィック編集ベンチマーク（密なテキスト領域を含む）で評価する。

提案手法

グローバルな速度場を持つ条件付き rectified flow matching を使用する。
共同アテンションのトークンをグローバル・ローカル・潜在・文脈グループに分割して Instance-Disentangled Attention（IDAttn）を導入する。
層間でのインタ‑インスタンス干渉を制御するため、早期/中期/後期の各層で分離マスク M_dis と調和マスク M_har の2つのマスキング regimes を適用する。
インスタンスプロンプトを意味的に分離したまま効率を維持する多プロンプト独立エンコーディング戦略を採用する。
提案するマスキング戦略でデータの一部に対して低ランク適応（LoRA）を用いたドメイン特有のファインチューニングを任意で実施する。
情報グラフィックの編集ベンチマークとして Crello Edit および InfoEdit データセットを提案し、インフォグラフィックの領域レベルのテキスト編集を評価する。

Figure 1 : Logic visualization of the proposed joint attention masks.

実験結果

リサーチクエスチョン

RQ1フロー基盤エディタでのインスタンスレベルの分離は、複数領域を同時編集する際の属性漏れを防げるか。
RQ2インスタンス分離アテンションは、マルチインスタンス編集における編集局所性、一貫性、効率を向上させるか。
RQ3多プロンプト独立エンコーディング戦略は、コストを大幅に増やさずプロンプトの意味的分離を維持できるか。
RQ4自然画像と比べて情報量の多いテキストを含むインフォグラフィック編集へこれらの手法がどれだけ移行できるか。

主な発見

Instance-Disentangled Attention はプロンプトの適合と背景の保持を改善し、領域間の干渉を低減する。
分布的マスキング：初期/後期層での調和、中央層での分離は、他の層構成よりもプロンプト追従性が高くアーティファクトが少ない。
多プロンプトエンコーディングは意味的分離を維持しつつ、いくつかの指標で受容可能なトレードオフを持ち、多数のインスタンスへ拡張可能。
提案手法は情報グラフィック編集ベンチマークでベースラインより強い編集率と背景アーティファクトの少なさを達成。
ユーザ研究とLLMベースの判断は、競合するFLUXベースのベースラインより提案手法を支持する。
マスキング戦略を用いたファインチューニング（任意）は、追加コストを抑えつつさらに性能を向上させる。

Figure 2 : CER and AR w.r.t. the number of edits.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。