[论文解读] Shifting the Breaking Point of Flow Matching for Multi-Instance Editing
论文提出了 Instance-Disentangled Attention,以实现流式匹配编辑器中的单次通过、实例级多编辑,并在自然图像和一个新的信息图编辑基准上进行了验证。
Flow matching models have recently emerged as an efficient alternative to diffusion, especially for text-guided image generation and editing, offering faster inference through continuous-time dynamics. However, existing flow-based editors predominantly support global or single-instruction edits and struggle with multi-instance scenarios, where multiple parts of a reference input must be edited independently without semantic interference. We identify this limitation as a consequence of globally conditioned velocity fields and joint attention mechanisms, which entangle concurrent edits. To address this issue, we introduce Instance-Disentangled Attention, a mechanism that partitions joint attention operations, enforcing binding between instance-specific textual instructions and spatial regions during velocity field estimation. We evaluate our approach on both natural image editing and a newly introduced benchmark of text-dense infographics with region-level editing instructions. Experimental results demonstrate that our approach promotes edit disentanglement and locality while preserving global output coherence, enabling single-pass, instance-level editing.
研究动机与目标
- 在基于流的图像编辑中,激励并实现独立的、区域特定的编辑,避免语义干扰。
- 开发 Instance-Disentangled Attention 以将联合注意分区并将实例提示绑定到空间区域。
- 展示解耦注意在多实例编辑中的编辑局部性和全局一致性方面的改进。
- 在自然图像和新的密集文本区域信息图编辑基准上进行评估。
提出的方法
- 使用带全局速度场的条件化整流流匹配。
- 通过将联合注意令牌分区为全局、局部、潜在和上下文组来引入 Instance-Disentangled Attention(IDAttn)。
- 应用两种掩码机制(解耦掩码 M_dis 和调和掩码 M_har)以在不同层(早/中/晚)控制跨实例干扰。
- 采用多提示独立编码策略,在保持高效的同时保持实例提示的语义隔离。
- 可选地通过对提出的掩码策略对数据子集进行低秩适应进行领域特定微调。
- 提出一个信息图编辑基准,包含 Crello Edit 和 InfoEdit 数据集,用于信息图中文本区域的区域级编辑。

实验结果
研究问题
- RQ1在基于流的编辑器中,实例级隔离在同时编辑多个区域时是否能防止属性泄漏?
- RQ2实例解耦注意是否提升多实例编辑中的编辑局部性、连贯性和效率?
- RQ3多提示独立编码策略是否在不产生不可承受成本的情况下保持提示的语义分离?
- RQ4与自然图像相比,这些方法在文本密集的信息图编辑中的迁移能力如何?
主要发现
- Instance-Disentangled Attention 提升了提示遵循性和背景保留,同时降低跨实例干扰。
- 掩码分布:在早/晚层使用调和,在中间层使用解耦,比其他层配置具有更好的提示跟随和更少的伪像。
- 高效的多提示编码在保持语义隔离方面取得可接受的权衡,并能扩展到更多实例。
- 在信息图编辑基准上,与基线相比,所提方法实现了更高的编辑率和更少的背景伪像。
- 用户研究和基于大型语言模型的评估均 favor 所提方法,优于竞争的 FLUX 基线。
- 在所提掩码策略下的微调(可选)在成本适中的情况下提供了额外的增益。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。