QUICK REVIEW

[论文解读] Fine-Grained Semantically Aligned Vision-Language Pre-Training

Juncheng Li, Xin He|arXiv (Cornell University)|Aug 4, 2022

Multimodal Machine Learning Applications被引用 29

一句话总结

LOUPE 通过游戏论的 Shapley 互动训练视觉-语言模型，以学习视觉区域与文本短语之间的细粒度语义对齐，在没有对象级标注的情况下实现最先进的零样本检索，并在零样本目标检测/视觉定位方面具有竞争力。

ABSTRACT

Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text features. However, they fail to explicitly learn the fine-grained semantic alignment between visual regions and textual phrases, as only global image-text alignment information is available. In this paper, we introduce LOUPE, a fine-grained semantically aLigned visiOn-langUage PrE-training framework, which learns fine-grained semantic alignment from the novel perspective of game-theoretic interactions. To efficiently compute the game-theoretic interactions, we further propose an uncertainty-aware neural Shapley interaction learning module. Experiments show that LOUPE achieves state-of-the-art performance on a variety of vision-language tasks. Furthermore, without any object-level human annotations and fine-tuning, LOUPE achieves competitive performance on object detection and visual grounding. More importantly, LOUPE opens a new promising direction of learning fine-grained semantics from large-scale raw image-text pairs. The repository of this work is at https://github.com/YYJMJC/LOUPE.

研究动机与目标

激发学习在全局图像-文本匹配之外，显式实现图像区域与文本短语之间的细粒度对齐。
提出一个博弈论的 Shapley 互动框架，用于建模标记级和语义级对齐。
通过一个不确定性感知的神经 Shapley 互动学习模块实现高效训练，以降低计算开销。
展示在图像-文本检索上的强大零样本性能，并在无需微调的情况下对目标检测和视觉定位进行迁移。

提出的方法

建模两阶段的 Shapley 互动：标记级将补丁标记聚类为语义图像区域，然后语义级将区域与文本短语对齐。
将标记级 Shapley 互动定义为区域发现的监督，使用轻量级区域生成器和语义聚合损失（L_TSA）。
定义语义级 Shapley 互动，以具有细粒度相似度分数的方式捕捉区域-短语对齐，并给出相应的损失（L_FSA）。
使用混合方法近似 Shapley 互动：不确定性感知的神经 Shapley 互动学习（UNSIL）模块加上基于采样的估计以降低计算量。
联合目标：L = L_CMC + L_TSA + L_FSA，其中 L_CMC 是跨模态对比损失。
使用双编码器结构（image Swin-L, text BERT-Small）以及一个 240M 图像-文本数据集进行预训练。

实验结果

研究问题

RQ1是否能够在没有人工区域-短语标注的情况下，仅凭原始图像-文本数据学习到视觉区域与文本短语之间的显式细粒度对齐？
RQ2标记级和语义级 Shapley 互动是否提升跨模态检索以及下游的细粒度视觉-语言理解？
RQ3不确定性感知的 Shapley 互动模块是否能在不牺牲对齐质量的前提下显著降低训练成本？

主要发现

LOUPE 在 Flickr30K 和 MSCOCO 上实现了新的零样本图像-文本检索的最先进水平（图像到文本与文本到图像）。
在没有对象级标注或微调的情况下，LOUPE 在零样本设置下迁移到目标检测和视觉定位，结果具有竞争力。
在消融实验中，添加 token-level TSA 和 semantics-level FSA 损失显著提升了各任务的性能，且 UNSIL 在保持估计精度的同时降低了训练时间。
在 COCO 与 PASCAL VOC 的零样本对象检测，以及对 RefCOCO/RefCOCO+ 的视觉定位方面，相较于 CLIP 变体取得了显著提升。
不稳定性分析表明，Shapley 互动估计在足够的采样量（约500个样本）时变得稳定。
使用 MLP+Attention 的 UNSIL 提供了对 Shapley 互动的有效不确定性估计，兼顾准确性与效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。