QUICK REVIEW

[论文解读] Interactive Image Generation Using Scene Graphs

Gaurav Mittal, Shubham Agrawal|arXiv (Cornell University)|May 9, 2019

Multimodal Machine Learning Applications参考文献 19被引用 28

一句话总结

本文提出了一种基于场景图的交互式、增量式图像生成框架，能够在逐步添加新场景图信息时保留先前生成的内容，并逐步优化图像。通过结合图卷积网络（GCNs）与循环生成对抗网络（GAN）架构，并引入感知正则化，该模型在无需中间监督的情况下，生成高质量、视觉一致的多对象图像，在 MS-COCO 数据集上的 Inception Score 和感知一致性方面均优于先前方法。

ABSTRACT

Recent years have witnessed some exciting developments in the domain of generating images from scene-based text descriptions. These approaches have primarily focused on generating images from a static text description and are limited to generating images in a single pass. They are unable to generate an image interactively based on an incrementally additive text description (something that is more intuitive and similar to the way we describe an image). We propose a method to generate an image incrementally based on a sequence of graphs of scene descriptions (scene-graphs). We propose a recurrent network architecture that preserves the image content generated in previous steps and modifies the cumulative image as per the newly provided scene information. Our model utilizes Graph Convolutional Networks (GCN) to cater to variable-sized scene graphs along with Generative Adversarial image translation networks to generate realistic multi-object images without needing any intermediate supervision during training. We experiment with Coco-Stuff dataset which has multi-object images along with annotations describing the visual scene and show that our model significantly outperforms other approaches on the same dataset in generating visually consistent images for incrementally growing scene graphs.

研究动机与目标

实现一种交互式、分步的图像生成方式，用户可通过逐步细化场景图来完善描述。
在后续步骤中添加新对象和关系时，保留先前生成的图像内容。
在训练过程中无需中间监督，生成逼真且高质量的多对象图像。
克服单次生成文本到图像模型在复杂多对象场景中表现不佳的局限性。
将基于场景图的图像生成方法拓展至真实世界数据集（如 MS-COCO），避免依赖包含真实中间图像的合成数据。

提出的方法

采用循环网络架构，基于前序步骤的累积图像以及逐步增加的场景图组件进行图像生成。
使用图卷积网络（GCNs）处理可变大小的场景图，有效编码对象与关系信息。
集成生成对抗网络（GAN）以实现逼真图像转换，判别器经过训练以区分真实图像与生成图像。
应用感知正则化损失（Zhang 等，2018）以在各步骤间强制实现视觉一致性，最小化对先前生成内容的失真。
通过改进的损失函数端到端训练，平衡图像质量（通过 Inception Score 衡量）与感知一致性（通过 LPIPS 衡量）。
以增量方式处理场景图：在每一步中，仅使用新添加的节点与边来更新图像，保留先前结构。

实验结果

研究问题

RQ1能否通过逐步扩展场景图并保留先前生成内容，使图像生成过程实现交互性？
RQ2深度生成模型如何在无中间监督的情况下，保持多步图像生成过程中的视觉一致性？
RQ3基于 GAN 的框架能否在真实世界数据集（如 MS-COCO）上，从增量式场景图输入生成高保真度的多对象图像？
RQ4感知正则化是否能提升增量优化过程中生成图像的视觉一致性？
RQ5在图像质量和结构保真度方面，增量生成与单次生成相比表现如何？

主要发现

所提模型在生成第三步时的 Inception Score 达到 5.02，显著优于基线模型 Sg2im（3.05），且在所有步骤中均表现出持续改进。
与基线模型相比，本模型在连续步骤间的感知相似性损失显著更低（0.477 和 0.421 对比 0.658 和 0.496），表明其具有更优的视觉一致性。
当场景图中明确描述背景元素（如草地和天空）时，模型才生成这些内容，从而在早期步骤中减少了幻觉现象。
尽管存在数据集偏差，当对象未被明确提及（如岩石或水）时，模型仍偶尔会出现幻觉，表明训练数据中存在残余偏差。
通过每次聚焦于更少的对象，增量方法能更有效地生成复杂场景，提升语义准确性和对象细节。
该方法是首个在真实世界数据集（如 MS-COCO）上实现无需中间监督的交互式、上下文保留图像生成的方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。