[论文解读] ImageEdit-R1: Boosting Multi-Agent Image Editing via Reinforcement Learning
ImageEdit-R1 引入一个三代理强化学习框架用于指令式图像编辑,在不修改底层编辑器的前提下,在多骨干模型与基准上实现更强的一致性和质量。
With the rapid advancement of commercial multi-modal models, image editing has garnered significant attention due to its widespread applicability in daily life. Despite impressive progress, existing image editing systems, particularly closed-source or proprietary models, often struggle with complex, indirect, or multi-step user instructions. These limitations hinder their ability to perform nuanced, context-aware edits that align with human intent. In this work, we propose ImageEdit-R1, a multi-agent framework for intelligent image editing that leverages reinforcement learning to coordinate high-level decision-making across a set of specialized, pretrained vision-language and generative agents. Each agent is responsible for distinct capabilities--such as understanding user intent, identifying regions of interest, selecting appropriate editing actions, and synthesizing visual content--while reinforcement learning governs their collaboration to ensure coherent and goal-directed behavior. Unlike existing approaches that rely on monolithic models or hand-crafted pipelines, our method treats image editing as a sequential decision-making problem, enabling dynamic and context-aware editing strategies. Experimental results demonstrate that ImageEdit-R1 consistently outperforms both individual closed-source diffusion models and alternative multi-agent framework baselines across multiple image editing datasets.
研究动机与目标
- 实现对间接或多步骤用户指令的鲁棒、具上下文感知的图像编辑。
- 将编辑请求分解为结构化组件(动作、主体、目标),以实现模块化规划。
- 通过强化学习协调专门代理,生成连贯的编辑序列。
- 在多样的编辑骨干和标准基准上验证有效性。
- 展示基于强化学习的分解在不改变底层编辑器的情况下提升指令对齐与视觉质量。
提出的方法
- 分解代理从用户请求与输入图像中提取动作、主体和目标,形成结构化的编辑表示。
- 排序代理将提取的组件组织成有序的子请求列表,以便模块化执行。
- 编辑代理——基于扩拟(扩散)模型——按顺序应用子请求以生成编辑后的图像。
- 强化学习(GRPO)通过格式、动作、主体和目标的准确性(基于集合组件的 F1 指标)进行奖励来训练分解代理。
- 以强化学习数据集、旧-新策略更新及带 KL 正则化的 GRPO 损失来稳定学习的 RL 循环。
- 评估使用多轮编辑基准(PSR、RealEdit、UltraEdit)以及基于大语言模型的评估者(GPT-4o、Gemini-2.5)来评估指令对齐与输出质量。

实验结果
研究问题
- RQ1一个多代理的分解-规划-编辑流水线能否在复杂图像编辑任务中超过单模型基线?
- RQ2对分解步骤进行强化学习是否能提升对用户意图的一致性与下游编辑质量?
- RQ3不同的编辑骨干在标准基准上对该多代理强化学习框架的响应如何?
- RQ4单轮执行 versus 多轮执行对最终编辑质量的影响如何?
- RQ5基于大模型的评估是否与人类判断高度相关,能否作为编辑质量的自动评估者?
主要发现
- ImageEdit-R1 在使用 Qwen-Image-Edit 作为骨干时,在 PSR、RealEdit、UltraEdit 基准上相对于单模型编辑器和非 RL 的多代理基线呈现稳定提升(给出平均增益)。
- 对分解代理进行强化学习是关键:无 RL 的多代理框架提升甚微或呈负向,而 RL 能带来显著的平均增益。
- 单轮执行策略在各基准上优于多轮执行,表明将所有子请求在一次整体通道中完成编辑时具有更好的一致性。
- 奖励中的目标条件化相较于无显式目标监督的配置可提升平均性能。
- 人类对齐分析显示基于大语言模型的判断与人类判断存在强相关性,支持将LLM作为编辑质量自动评估者的可行性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。