QUICK REVIEW

[论文解读] What You See is What You Read? Improving Text-Image Alignment Evaluation

Michal Yarom, Yonatan Bitton|arXiv (Cornell University)|May 17, 2023

Multimodal Machine Learning Applications被引用 14

一句话总结

论文推出 SeeTRUE，一个全面的文本-图像对齐基准，以及两种对齐评估方法（VQ2 与 VNLI），在基线之上并能对真实和合成数据进行泛化，从而提升文本到图像系统的评估和重新排序。

ABSTRACT

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.

研究动机与目标

促进一个全面的、跨任务的文本-图像对齐评估框架，涵盖文本到图像生成和图像到文本生成两个任务。
创建 SeeTRUE，一个具有真实与合成图像-文本对的大型人工标注基准，用以评估语义对齐。
开发两种自动评估方法（VQ2 和 VNLI），可无参考或端到端，并将它们与强基线进行比较。
展示利用对齐分数定位错位并对生成的图像候选进行重新排序的能力。
提供资源（数据、模型、代码），以促进文本-图像对齐评估领域未来的研究与可重复性。

提出的方法

通过整理 31,855 对标注的图像-文本对来组成 SeeTRUE，覆盖真实/合成数据以及文本到图像、图像到文本任务，并以人工对齐判断为标准。
通过 ConGen 生成相矛盾的描述，方法是让大型语言模型生成变体，并用自然语言推理（NLI）和人工检查进行验证。
提出 VQ2：通过从文本生成问答对进行零-shot 对齐，借助问答（QA）验证，并使用视觉问答（VQA）模型对图像-文本对齐进行评分；跨对进行汇总分数。
提出 VNLI：对多模态模型（PaLI-17B、BLIP2）进行端到端微调，以对格式化为是/否提示的图像-文本对预测二元对齐。
使用 SeeTRUE 数据集的 ROC AUC 指标，将对齐方法与基线（CLIP、CoCa、BLIP、BLIP2、OFA、TIFA）进行比较。
展示 VQ2 在组合式数据集上（如 Winoground）表现出色，并且将 VQ2 与微调后的 PaLI 结合可产生强大、互补的信号。

实验结果

研究问题

RQ1我们如何在真实与合成数据上鲁棒地评估图像与文本之间的语义对齐？
RQ2一个问题生成和视觉问答管道（VQ2）能否在文本-图像对齐任务上超越固定嵌入的基线？
RQ3对多模态模型进行端到端微调（VNLI）是否比零-shot 方法更能改进对齐判断？
RQ4SeeTRUE 的基准能否揭示错位来源并通过对齐分数改进生成图像的重新排序？
RQ5合成数据与对比/矛盾生成是否在跨数据集的对齐评估中有帮助还是有阻碍？

主要发现

VQ2 在 SeeTRUE 数据集上实现最新的零-shot 性能，超越若干基线，并在 Winoground 上取得领先结果。
微调 PaLI（包括合成数据）实现较高的平均 ROC AUC，并在若干数据集上表现最强；合成数据有利于合成图像任务，但并非对所有自然图像数据集都有效。
端到端 VNLI 模型（PaLI、BLIP2 变体）显示出强劲结果，组合使用时可对 VQ2 形成互补。
VQ2 通过特定的问答对提供可解释的错位定位，并在对比 CLIP 基线时提升生成图像的排序。
在 Winoground 上，VQ2 实现组分数 30.50%，接近人类水平的指导，并在组合推理任务中超越许多基线。
SeeTRUE 的矛盾生成（ConGen）方法在与人工标签的一致性方面达到高水平（例如 COCO 中 94%，PickaPic 中 77%），并支持跨数据类型的鲁棒评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。