QUICK REVIEW

[论文解读] A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation

Yupan Huang, Bei Liu|arXiv (Cornell University)|Oct 19, 2021

Multimodal Machine Learning Applications参考文献 20被引用 7

一句话总结

该论文提出了一种统一的多模态Transformer框架，能够从多个输入标题或单张图像联合生成多样化的标题和丰富的图像。通过使用非似然性目标建模标题之间的关系，并采用非自回归解码，该系统在标题生成方面实现了最先进（SOTA）的多样性（Div-1为40.2，Div-2为53.2），并在图像保真度方面取得提升（FID为42.1），展示了有效的双向图像与文本生成能力。

ABSTRACT

A creative image-and-text generative AI system mimics humans' extraordinary abilities to provide users with diverse and comprehensive caption suggestions, as well as rich image creations. In this work, we demonstrate such an AI creation system to produce both diverse captions and rich images. When users imagine an image and associate it with multiple captions, our system paints a rich image to reflect all captions faithfully. Likewise, when users upload an image, our system depicts it with multiple diverse captions. We propose a unified multi-modal framework to achieve this goal. Specifically, our framework jointly models image-and-text representations with a Transformer network, which supports rich image creation by accepting multiple captions as input. We consider the relations among input captions to encourage diversity in training and adopt a non-autoregressive decoding strategy to enable real-time inference. Based on these, our system supports both diverse captions and rich images generations. Our code is available online.

研究动机与目标

为解决现有模型中图像-文本一一对应映射的局限性，实现多样化标题与丰富图像的双向生成。
通过在训练过程中建模多个输入标题之间的关系，提升标题多样性。
通过非自回归解码策略支持实时推理，以实现实际部署。
将图像到文本与文本到图像生成统一于单一框架中，同时保持语义丰富性与模态对齐。

提出的方法

一种统一的多模态Transformer架构，对图像和文本标记进行编码，并支持模态间的交叉注意力机制。
将多个多样化的标题通过[SEP]标记连接后作为输入，用于生成丰富图像。
采用非似然性训练目标，通过条件化于先前生成的标题来惩罚词重复，从而鼓励多样性。
利用Faster R-CNN特征的离散聚类，为文本到图像合成生成视觉标记。
采用带掩码预测k（mask-predict-k）策略的非自回归解码，仅需4步即可实现快速、实时推理。
基于GAN的图像生成器将离散图像标记转换为逼真的场景图像。

实验结果

研究问题

RQ1统一框架能否有效从单张图像生成多样化标题？
RQ2如何在训练过程中建模标题间关系以提升标题多样性？
RQ3使用多个标题作为输入是否能改善图像生成质量，而非仅使用单个标题？
RQ4非自回归解码是否能在不损失生成质量的前提下实现实时推理？
RQ5建模标题间依赖关系在多大程度上能同时提升标题多样性与图像保真度？

主要发现

所提方法在MSCOCO数据集上实现了40.2 Div-1与53.2 Div-2的得分，相较于基线模型，标题多样性的绝对提升分别达到16.8%与24.9%。
尽管CIDEr-D得分较低（80.0 vs. 100.6），但生成的标题在流畅性与语义意义方面表现良好，如定性示例所示。
当使用多个标题作为输入时，文本到图像生成的FID得分从51.5降至42.1，表明图像真实感与分布匹配性显著提升。
非自回归解码策略仅通过四步采样即可实现实时推理，使系统适用于交互式应用。
非似然性目标有效减少了词重复现象，并通过在训练中建模标题间依赖关系，显著提升了标题多样性。
统一框架成功在单一架构中实现了图像到文本与文本到图像生成，展示了双向生成能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。