QUICK REVIEW

[论文解读] X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers

Jaemin Cho, Jiasen Lu|arXiv (Cornell University)|Sep 23, 2020

Multimodal Machine Learning Applications参考文献 62被引用 24

一句话总结

本文提出 X-LXMERT，一种统一的多模态 Transformer 模型，通过优化训练目标将 LXMERT 扩展为能够从文本描述生成高质量、语义有意义图像的模型：对视觉特征进行离散化处理，采用跨多种比例的均匀掩码策略，并将预训练数据对齐至生成任务。该模型在图像生成质量上达到当前最先进水平，与专用生成模型相当，同时保持了在视觉问答和图像字幕生成任务上的强大性能。

ABSTRACT

Mirroring the success of masked language models, vision-and-language counterparts like ViLBERT, LXMERT and UNITER have achieved state of the art performance on a variety of multimodal discriminative tasks like visual question answering and visual grounding. Recent work has also successfully adapted such models towards the generative task of image captioning. This begs the question: Can these models go the other way and generate images from pieces of text? Our analysis of a popular representative from this model family - LXMERT - finds that it is unable to generate rich and semantically meaningful imagery with its current training setup. We introduce X-LXMERT, an extension to LXMERT with training refinements including: discretizing visual representations, using uniform masking with a large range of masking ratios and aligning the right pre-training datasets to the right objectives which enables it to paint. X-LXMERT's image generation capabilities rival state of the art generative models while its question answering and captioning abilities remains comparable to LXMERT. Finally, we demonstrate the generality of these training refinements by adding image generation capabilities into UNITER to produce X-UNITER.

研究动机与目标

探究强大的视觉-语言 BERT 类模型（如 LXMERT）是否能够从文本提示生成有意义的图像。
识别现有模型在图像生成方面表现不佳的根本原因，尤其是基于回归的视觉特征预测方法。
开发一组训练优化方法，使多模态模型具备强大的图像生成能力，同时不降低其判别性任务性能。
证明这些优化方法在其他多模态架构（如 UniFormer）中的可迁移性。
构建一个统一模型，能够完成视觉问答、图像字幕生成以及从文本合成图像的任务。

提出的方法

用固定网格特征替代目标检测的边界框，以简化视觉输入表示。
将视觉特征离散化为有限数量的聚类，以实现基于分类的预测，而非回归。
在预训练过程中对多种掩码比例（从 10% 到 90%）统一应用掩码策略，以提升对完整图像生成任务的泛化能力。
重构预训练数据，使其与图像生成目标对齐，以掩码视觉特征预测作为主要预训练目标。
集成基于扩散的图像生成器，从模型预测结果自回归地采样视觉特征。
使用 Gibbs 采样从模型的文本流中生成多样且连贯的字幕，条件于初始前缀。

实验结果

研究问题

RQ1视觉-语言 BERT 模型（如 LXMERT）能否从文本描述生成语义上合理的图像？
RQ2为何现有多模态模型尽管在判别性任务上表现优异，却在图像生成方面表现不佳？
RQ3为使多模态 Transformer 实现可靠的图像生成能力，需要哪些训练优化？
RQ4这些优化方法在不同多模态架构间的可迁移性如何？
RQ5扩展后的模型在图像质量与语义一致性方面，与专用图像生成模型相比表现如何？

主要发现

原始形式的 LXMERT 无法生成连贯或有意义的图像，其输出大多难以理解，根本原因在于基于回归的视觉特征预测方法。
X-LXMERT 在图像生成任务上取得 22.7 的 inception score（IS）和 37.4 的 fid score（FID），性能与当前最先进生成模型相当。
对视觉表征进行离散化处理以及采用均匀掩码策略对高质量图像生成至关重要；消融实验表明，若省略这两项，IS 降至 1.5，FID 升至 304.4。
模型在视觉问答任务上仍保持强大性能，NLVR2 任务上的准确率仅比 LXMERT 降低约 2%，表明判别性任务性能下降极小。
相同的训练优化方法在 UniFormer 上也成功实现了图像生成，生成 X-Uniter 模型，其 IS 为 20.1，FID 为 51.4，证明了该方法的广泛适用性。
通过自回归采样实现的中间图像生成过程呈现出有序的推理进展：显著物体首先出现，随后是细节和背景，表明具备结构化推理能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。