QUICK REVIEW

[论文解读] Self-Corrected Image Generation with Explainable Latent Rewards

Yinyi Luo, Hrishikesh Gokhale|arXiv (Cornell University)|Mar 26, 2026

Multimodal Machine Learning Applications被引用 0

一句话总结

xLARD 是一个自我纠错框架，使用可解释的潜在奖励来引导潜在空间中的图像生成，在不重新训练主干网络的情况下改善语义对齐（计数、颜色、位置）。它结合了基于理解的强化纠正器、概念错位检测器和可微潜在奖励投射器。

ABSTRACT

Despite significant progress in text-to-image generation, aligning outputs with complex prompts remains challenging, particularly for fine-grained semantics and spatial relations. This difficulty stems from the feed-forward nature of generation, which requires anticipating alignment without fully understanding the output. In contrast, evaluating generated images is more tractable. Motivated by this asymmetry, we propose xLARD, a self-correcting framework that uses multimodal large language models to guide generation through Explainable LAtent RewarDs. xLARD introduces a lightweight corrector that refines latent representations based on structured feedback from model-generated references. A key component is a differentiable mapping from latent edits to interpretable reward signals, enabling continuous latent-level guidance from non-differentiable image-level evaluations. This mechanism allows the model to understand, assess, and correct itself during generation. Experiments across diverse generation and editing tasks show that xLARD improves semantic alignment and visual fidelity while maintaining generative priors. Code is available at https://yinyiluo.github.io/xLARD/.

研究动机与目标

推动多模态理解与图像生成之间的差距，解决 T2I 模型中的语义错位。
引入一个即插即用的潜在空间纠正器，使用模型自身的理解作为引导。
提供从潜在编辑映射到语义线索（计数、颜色、位置）的可解释奖励。
在最小的主干修改和数据量下，展示语义保真度与视觉质量的提升。
展示可解释性工具，追踪纠正到文本标记和潜在区域。

提出的方法

在冻结的文本到图像生成器的潜在空间中引入一个轻量级残差纠正器，以产生修正后的潜在向量 z_c = z_0 + alpha * Delta_theta(z_0, e_p) 。
训练一个可微潜在奖励投射器 R_phi，将潜在修正映射为可解释的潜在奖励 r_latent，以近似不可微的图像级奖励。
使用概念错位检测（CMD）为全局对齐提供图像级一致性引导。
沿着计数、颜色和位置维度定义从主干特征和提示结构中派生的任务特定子奖励。
用基于 PPO 的目标函数优化 Delta_theta，以最大化期望潜在奖励，并使用学习到的基线进行方差降低。
在推理阶段，在单个潜在向量上直接应用 Delta_theta，而不进行奖励计算，保持与基础生成器的运行时等价性。

实验结果

研究问题

RQ1一个自我纠错的潜在空间模块是否可以在不重训练主干网络的情况下改善提示驱动的图像生成的语义对齐？
RQ2如何推导并在实时中使用可解释的潜在奖励（计数、颜色、位置）来引导生成？
RQ3将模型自带的、可解释的反馈整合到一起，是否能提高计数、空间布局和颜色保真度，在多样化基准上表现更好？

主要发现

xLARD 实现了更高的语义保真度和视觉质量，相较基线在 GenEval 上提升 +4.1%，在 DPGBench 上提升 +2.97%。
与训练后基线相比，xLARD 需要更少的数据和计算，同时保留了生成先验。
消融结果显示，强化学习目标、置信度引导和潜在锚点各自有助于提升，其中潜在锚点对布局和关系任务尤其显著。
可解释性信号（LAMs 与标记贡献）能够可靠反映纠正行为及语义影响（如标记级贡献与奖励改进一致）。
跨主干评估证实即插即用在扩散和相关架构上的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。