Skip to main content
QUICK REVIEW

[论文解读] Keep Drawing It: Iterative language-based image generation and editing.

Alaaeldin El-Nouby, Shikhar Sharma|arXiv (Cornell University)|Nov 24, 2018
Multimodal Machine Learning Applications被引用 11
一句话总结

本文提出了一种循环图像生成模型,该模型基于持续的语义反馈,迭代地生成和编辑图像,并在各步骤间保持上下文一致性。通过同时依赖先前输出和所有先前指令进行条件控制,该模型实现了交互式编辑——例如添加对象、修改背景以及纠正错误,标志着迈向动态、用户引导图像合成的关键一步。

ABSTRACT

Conditional text-to-image generation approaches commonly focus on generating a single image in a single step. One practical extension beyond one-step generation is an interactive system that generates an image iteratively, conditioned on ongoing linguistic input / feedback. This is significantly more challenging as such a system must understand and keep track of the ongoing context and history. In this work, we present a recurrent image generation model which takes into account both the generated output up to the current step as well as all past instructions for generation. We show that our model is able to generate the background, add new objects, apply simple transformations to existing objects, and correct previous mistakes. We believe our approach is an important step toward interactive generation.

研究动机与目标

  • 开发一种支持多步迭代、语言条件编辑的交互式图像生成系统,超越单步生成。
  • 解决在多个生成步骤和语言指令之间维持上下文感知能力的挑战。
  • 通过自然语言反馈实现动态图像编辑,例如添加对象、修改背景或纠正错误。
  • 对视觉和语言模态中的长期依赖关系进行建模,以实现连贯、演化的图像生成。

提出的方法

  • 该模型采用循环架构,同时处理当前图像输出和先前指令的完整历史记录。
  • 使用基于Transformer的编码器对语言历史进行嵌入,捕捉多步中用户意图的演变。
  • 图像生成基于当前图像的潜在表示以及指令历史的编码表示进行条件控制。
  • 通过交叉注意力机制将视觉与语言表征整合,实现语言反馈与图像区域的对齐。
  • 训练过程包含一系列图像生成步骤,每一步均基于新语言输入和先前上下文对图像进行细化。
  • 系统通过端到端可微优化支持增量编辑,如对象添加、变换和错误纠正。

实验结果

研究问题

  • RQ1循环图像生成模型能否有效在多个编辑步骤中维持并利用语言和视觉上下文?
  • RQ2此类模型在仅使用自然语言反馈的情况下,处理复杂编辑任务(如添加新对象或纠正先前错误)的能力如何?
  • RQ3与忽略先前输入的模型相比,整合完整指令历史在多大程度上提升了生成图像的一致性和准确性?
  • RQ4该模型能否在交互式环境中泛化至多样化的编辑操作,包括背景更改和对象变换?

主要发现

  • 该模型成功通过多轮迭代步骤生成并编辑图像,与用户提供的语言反馈保持一致。
  • 它展示了根据自然语言指令向图像中添加新对象、修改现有对象以及纠正早期错误的能力。
  • 与记忆有限的模型相比,整合完整指令历史可带来更连贯、上下文准确的图像编辑效果。
  • 该系统在单一统一框架中支持多样化的编辑操作,包括背景生成、对象插入和变换。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。