Skip to main content
QUICK REVIEW

[论文解读] Fine-Grained Semantically Aligned Vision-Language Pre-Training

Juncheng Li, Xin He|arXiv (Cornell University)|Aug 4, 2022
Multimodal Machine Learning Applications被引用 29
一句话总结

LOUPE 通过游戏论的 Shapley 互动训练视觉-语言模型,以学习视觉区域与文本短语之间的细粒度语义对齐,在没有对象级标注的情况下实现最先进的零样本检索,并在零样本目标检测/视觉定位方面具有竞争力。

ABSTRACT

Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text features. However, they fail to explicitly learn the fine-grained semantic alignment between visual regions and textual phrases, as only global image-text alignment information is available. In this paper, we introduce LOUPE, a fine-grained semantically aLigned visiOn-langUage PrE-training framework, which learns fine-grained semantic alignment from the novel perspective of game-theoretic interactions. To efficiently compute the game-theoretic interactions, we further propose an uncertainty-aware neural Shapley interaction learning module. Experiments show that LOUPE achieves state-of-the-art performance on a variety of vision-language tasks. Furthermore, without any object-level human annotations and fine-tuning, LOUPE achieves competitive performance on object detection and visual grounding. More importantly, LOUPE opens a new promising direction of learning fine-grained semantics from large-scale raw image-text pairs. The repository of this work is at https://github.com/YYJMJC/LOUPE.

研究动机与目标

  • 激发学习在全局图像-文本匹配之外,显式实现图像区域与文本短语之间的细粒度对齐。
  • 提出一个博弈论的 Shapley 互动框架,用于建模标记级和语义级对齐。
  • 通过一个不确定性感知的神经 Shapley 互动学习模块实现高效训练,以降低计算开销。
  • 展示在图像-文本检索上的强大零样本性能,并在无需微调的情况下对目标检测和视觉定位进行迁移。

提出的方法

  • 建模两阶段的 Shapley 互动:标记级将补丁标记聚类为语义图像区域,然后语义级将区域与文本短语对齐。
  • 将标记级 Shapley 互动定义为区域发现的监督,使用轻量级区域生成器和语义聚合损失(L_TSA)。
  • 定义语义级 Shapley 互动,以具有细粒度相似度分数的方式捕捉区域-短语对齐,并给出相应的损失(L_FSA)。
  • 使用混合方法近似 Shapley 互动:不确定性感知的神经 Shapley 互动学习(UNSIL)模块加上基于采样的估计以降低计算量。
  • 联合目标:L = L_CMC + L_TSA + L_FSA,其中 L_CMC 是跨模态对比损失。
  • 使用双编码器结构(image Swin-L, text BERT-Small)以及一个 240M 图像-文本数据集进行预训练。

实验结果

研究问题

  • RQ1是否能够在没有人工区域-短语标注的情况下,仅凭原始图像-文本数据学习到视觉区域与文本短语之间的显式细粒度对齐?
  • RQ2标记级和语义级 Shapley 互动是否提升跨模态检索以及下游的细粒度视觉-语言理解?
  • RQ3不确定性感知的 Shapley 互动模块是否能在不牺牲对齐质量的前提下显著降低训练成本?

主要发现

  • LOUPE 在 Flickr30K 和 MSCOCO 上实现了新的零样本图像-文本检索的最先进水平(图像到文本与文本到图像)。
  • 在没有对象级标注或微调的情况下,LOUPE 在零样本设置下迁移到目标检测和视觉定位,结果具有竞争力。
  • 在消融实验中,添加 token-level TSA 和 semantics-level FSA 损失显著提升了各任务的性能,且 UNSIL 在保持估计精度的同时降低了训练时间。
  • 在 COCO 与 PASCAL VOC 的零样本对象检测,以及对 RefCOCO/RefCOCO+ 的视觉定位方面,相较于 CLIP 变体取得了显著提升。
  • 不稳定性分析表明,Shapley 互动估计在足够的采样量(约500个样本)时变得稳定。
  • 使用 MLP+Attention 的 UNSIL 提供了对 Shapley 互动的有效不确定性估计,兼顾准确性与效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。