[论文解读] ChatPainter: Improving Text to Image Generation using Dialogue
ChatPainter 在带对话上下文的 caption 条件图像生成中,相较仅使用 caption 的模型,在 MS COCO 上获得更高的 Inception Score 和更好的图像质量。
Synthesizing realistic images from text descriptions on a dataset like Microsoft Common Objects in Context (MS COCO), where each image can contain several objects, is a challenging task. Prior work has used text captions to generate images. However, captions might not be informative enough to capture the entire image and insufficient for the model to be able to understand which objects in the images correspond to which words in the captions. We show that adding a dialogue that further describes the scene leads to significant improvement in the inception score and in the quality of generated images on the MS COCO dataset.
研究动机与目标
- 通过用对话丰富 captions 以更好描述复杂场景,激励改进文本到图像生成。
- 证明对话条件生成在 MS COCO 上产生比仅 caption 基线更高质量的图像。
- 通过整合对话 via conditioning augmentation 机制并在两阶段设置中训练,扩展 StackGAN。
提出的方法
- 用两阶段生成器和判别器架构扩展 StackGAN。
- 用预训练的 caption encoder 编码 captions,使用非循环 Skip-Thought 或循环双向 LSTM 编码器之一对对话进行编码。
- 将 caption 与 dialogue 的嵌入向量连接,通过 Conditioning Augmentation (CA) 模块来对采样条件变量 ĉ 进行 mu 和 sigma 的采样。
- Stage-I 使用 z 和 ĉ0 生成 64x64 图像;Stage-II 使用 Stage-I 输出和一个联合的 ĉ 来细化到 256x256。
- 使用一个匹配感知的判别器训练,面对真实的图像- caption- dialogue 三元组与 fake 对,优化对抗损失并对条件变量做 KL 正则化。
- 实验使用非循环和循环对话编码器,评估对图像质量的影响。
实验结果
研究问题
- RQ1在 MS COCO 上将对话描述与 captions 一起纳入,是否能提升生成图像的质量?
- RQ2对话的加入如何影响标准的图像合成指标,如 Inception Score,与仅 caption 的模型相比?
- RQ3使用非循环与循环对话编码器对生成性能有何影响?
- RQ4ChatPainter 框架能否与现有的 caption-to-image 模型集成,以实现端到端的改进?
主要发现
- ChatPainter 结合对话相较仅 caption 的 StackGAN 基线获得更高的 Inception Score。
- 非循环 ChatPainter:9.43±0.04;循环 ChatPainter:9.74±0.02,在 MS COCO 测试集上(Inception Score)。
- 与以往方法相比:Reed et al. (2016a) 7.88±0.07 和 StackGAN 8.45±0.03,ChatPainter 显示显著改进,尽管 AttnGAN 和 AttnGAN (Xu et al., 2017) 在文献中取得更高分数(11.46±0.09 和 25.89±0.47 分别)作为背景。
- 通过对话条件的 ChatPainter 可以作为对 caption-to-image 模型的正交增强进行添加。
- 循环对话编码器通常比非循环编码器获得更高的 Inception Score,因为对话表示更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。