[论文解读] Fine-Grained Semantically Aligned Vision-Language Pre-Training
LOUPE 通过游戏论的 Shapley 互动训练视觉-语言模型,以学习视觉区域与文本短语之间的细粒度语义对齐,在没有对象级标注的情况下实现最先进的零样本检索,并在零样本目标检测/视觉定位方面具有竞争力。
Large-scale vision-language pre-training has shown impressive advances in a wide range of downstream tasks. Existing methods mainly model the cross-modal alignment by the similarity of the global representations of images and texts, or advanced cross-modal attention upon image and text features. However, they fail to explicitly learn the fine-grained semantic alignment between visual regions and textual phrases, as only global image-text alignment information is available. In this paper, we introduce LOUPE, a fine-grained semantically aLigned visiOn-langUage PrE-training framework, which learns fine-grained semantic alignment from the novel perspective of game-theoretic interactions. To efficiently compute the game-theoretic interactions, we further propose an uncertainty-aware neural Shapley interaction learning module. Experiments show that LOUPE achieves state-of-the-art performance on a variety of vision-language tasks. Furthermore, without any object-level human annotations and fine-tuning, LOUPE achieves competitive performance on object detection and visual grounding. More importantly, LOUPE opens a new promising direction of learning fine-grained semantics from large-scale raw image-text pairs. The repository of this work is at https://github.com/YYJMJC/LOUPE.
研究动机与目标
- 激发学习在全局图像-文本匹配之外,显式实现图像区域与文本短语之间的细粒度对齐。
- 提出一个博弈论的 Shapley 互动框架,用于建模标记级和语义级对齐。
- 通过一个不确定性感知的神经 Shapley 互动学习模块实现高效训练,以降低计算开销。
- 展示在图像-文本检索上的强大零样本性能,并在无需微调的情况下对目标检测和视觉定位进行迁移。
提出的方法
- 建模两阶段的 Shapley 互动:标记级将补丁标记聚类为语义图像区域,然后语义级将区域与文本短语对齐。
- 将标记级 Shapley 互动定义为区域发现的监督,使用轻量级区域生成器和语义聚合损失(L_TSA)。
- 定义语义级 Shapley 互动,以具有细粒度相似度分数的方式捕捉区域-短语对齐,并给出相应的损失(L_FSA)。
- 使用混合方法近似 Shapley 互动:不确定性感知的神经 Shapley 互动学习(UNSIL)模块加上基于采样的估计以降低计算量。
- 联合目标:L = L_CMC + L_TSA + L_FSA,其中 L_CMC 是跨模态对比损失。
- 使用双编码器结构(image Swin-L, text BERT-Small)以及一个 240M 图像-文本数据集进行预训练。
实验结果
研究问题
- RQ1是否能够在没有人工区域-短语标注的情况下,仅凭原始图像-文本数据学习到视觉区域与文本短语之间的显式细粒度对齐?
- RQ2标记级和语义级 Shapley 互动是否提升跨模态检索以及下游的细粒度视觉-语言理解?
- RQ3不确定性感知的 Shapley 互动模块是否能在不牺牲对齐质量的前提下显著降低训练成本?
主要发现
- LOUPE 在 Flickr30K 和 MSCOCO 上实现了新的零样本图像-文本检索的最先进水平(图像到文本与文本到图像)。
- 在没有对象级标注或微调的情况下,LOUPE 在零样本设置下迁移到目标检测和视觉定位,结果具有竞争力。
- 在消融实验中,添加 token-level TSA 和 semantics-level FSA 损失显著提升了各任务的性能,且 UNSIL 在保持估计精度的同时降低了训练时间。
- 在 COCO 与 PASCAL VOC 的零样本对象检测,以及对 RefCOCO/RefCOCO+ 的视觉定位方面,相较于 CLIP 变体取得了显著提升。
- 不稳定性分析表明,Shapley 互动估计在足够的采样量(约500个样本)时变得稳定。
- 使用 MLP+Attention 的 UNSIL 提供了对 Shapley 互动的有效不确定性估计,兼顾准确性与效率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。