QUICK REVIEW

[论文解读] VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

Katherine Crowson, Stella Biderman|arXiv (Cornell University)|Apr 18, 2022

Multimodal Machine Learning Applications被引用 30

一句话总结

VQGAN-CLIP 将一个预训练的 VQGAN 生成器与 CLIP 结合，能够在无需额外训练的情况下从文本提示生成和编辑开放领域图像，实现高可视化质量和与提示的语义对齐。

ABSTRACT

Generating and editing images from open domain text prompts is a challenging task that heretofore has required expensive and specially trained models. We demonstrate a novel methodology for both tasks which is capable of producing images of high visual quality from text prompts of significant semantic complexity without any training by using a multimodal encoder to guide image generations. We demonstrate on a variety of tasks how using CLIP [37] to guide VQGAN [11] produces higher visual quality outputs than prior, less flexible approaches like DALL-E [38], GLIDE [33] and Open-Edit [24], despite not being trained for the tasks presented. Our code is available in a public repository.

研究动机与目标

在无需具体任务训练的前提下，推动开放领域的文本驱动图像生成与编辑。
利用预训练的多模态编码器来引导图像生成与处理。
展示在生成与编辑任务中高视觉质量与语义保真度。
展示效率方面的好处并讨论开放开发的影响与采用。

提出的方法

将 VQGAN 作为图像生成器，CLIP 作为联合文本-图像编码器，基于文本和生成图像嵌入之间的余弦相似度定义损失。
通过对 CLIP 基础损失的梯度下降优化生成器潜向量（z 向量）。
应用多种增强（裁剪、翻转、颜色抖动、噪声）以通过对增强视图的损失平均来稳定优化。
使用 L2 项对潜向量进行正则化，以促进一致、简洁的表征并提升图像质量。
通过改变初始化来实现生成与编辑：对生成使用随机噪声，对编辑则使用提供的图像。
可选地通过附加组件如提示词叠加和遮罩来引导多提示合成与定向编辑。
通过与其他方法的人类评测进行比较并进行消融实验以证明设计选择的合理性。

实验结果

研究问题

RQ1开放领域文本提示是否能够在不训练新模型的情况下生成高质量且语义保真度高的图像？
RQ2以 CLIP 指导的优化在质量与保真度方面相比有何优劣于监督的生成/编辑方法？
RQ3哪些设计选择（增强、正则化）对输出质量与语义对齐影响最大？
RQ4相对于基于训练的方法，该方法在效率和资源使用方面有哪些权衡？
RQ5该方法在从文本提示进行开放领域图像编辑方面的支持如何？

主要发现

使用 VQGAN-CLIP 生成的图像具有高视觉质量并与提示语义对齐。
在人工对齐评分方面，该方法优于可比的开放域方法（感知-文本保真度更高）。
增强显著稳定优化并提高一致性与质量。
L2 潜在正则化在图像连贯性和细节方面优于先前的码本采样方法。
通过简单以目标图像初始化即可实现开放域图像编辑，从而在不训练的情况下实现语义编辑。
该方法在标准 GPU 上可扩展，在典型设置下每张图像耗时数分钟；避免了训练成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。