[论文解读] Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with Transformers
论文通过蒸馏和重新排序,将快速双编码器模型与慢速交叉注意力变换器结合起来,实现可扩展且高准确性的文本到视觉检索。它引入了带有特征上采样的细粒度跨注意力和双向描述标题训练目标,在 COCO、Flickr30K 和 VATEX 数据集上得到验证。
Our objective is language-based search of large-scale image and video datasets. For this task, the approach that consists of independently mapping text and vision to a joint embedding space, a.k.a. dual encoders, is attractive as retrieval scales and is efficient for billions of images using approximate nearest neighbour search. An alternative approach of using vision-text transformers with cross-attention gives considerable improvements in accuracy over the joint embeddings, but is often inapplicable in practice for large-scale retrieval given the cost of the cross-attention mechanisms required for each sample at test time. This work combines the best of both worlds. We make the following three contributions. First, we equip transformer-based models with a new fine-grained cross-attention architecture, providing significant improvements in retrieval accuracy whilst preserving scalability. Second, we introduce a generic approach for combining a Fast dual encoder model with our Slow but accurate transformer-based model via distillation and re-ranking. Finally, we validate our approach on the Flickr30K image dataset where we show an increase in inference speed by several orders of magnitude while having results competitive to the state of the art. We also extend our method to the video domain, improving the state of the art on the VATEX dataset.
研究动机与目标
- 通过可扩展的检索,激发对大型图像/视频数据集的语言检索.
- 开发一个快速、可索引的双编码器,并通过蒸馏从准确的跨注意力中获益。
- 提出对快速结果的重新排序,使之通过慢速跨注意力模型提升准确性.
- 引入细粒度跨注意力架构和基于描述的训练目标.
- 在图像和视频检索数据集上展示可扩展性和类似最先进水平的性能。
提出的方法
- 为图像文本检索定义快速双编码器(DE)和慢速跨注意力(CA)模型。
- 引入一种新颖的逐步特征上采样架构,以实现细粒度的视觉语言跨注意力。
- 使用双向描述损失来训练慢速 CA 模型以用于检索。
- 使用教师-学生蒸馏目标,在采样的图文对上将慢速 CA 模型的知识蒸馏到快速 DE 模型。
- 将快速 DE 的检索与慢速 CA 的重新排序结合起来:从快速模型中选取前-K 个候选,并用慢速模型进行重新排序(式(Eq. 9))。
- 可选地通过在查询时应用重新排序步骤来提高 CA 的效率,而不是对所有候选进行重排序。
实验结果
研究问题
- RQ1跨注意力模型是否能够在保持索引可扩展性的同时提升文本到视觉的检索效果?
- RQ2从慢速跨注意力模型蒸馏出来的知识是否能够在不牺牲可索引性的前提下提升快速双编码器?
- RQ3在前-K 个快速结果上使用慢速模型进行重新排序,是否能带来显著的准确性提升且延迟适中?
- RQ4基于描述的训练目标在检索方面是否与传统对比/目标损失相比具有竞争力?
- RQ5渐进式特征上采样如何影响视觉语言检索中的细粒度定位?
主要发现
- 跨注意力模型在检索基准上通常优于双编码器,但通过蒸馏,双编码器可以缩小差距。
- 双向描述目标提供了检索竞争性的结果,有时甚至超过标准的跨模态匹配损失。
- 高分辨率视觉特征的渐进上采样显著提升了基线跨注意力模型在 R@1 和 R@5 方面的召回率。
- 将慢速 CA 蒸馏到快速 DE,使在 COCO 上训练时快速 DE 的 R@1 提升超过 10 个百分点,并缩小与慢速模型的差距。
- 用慢速模型对前-K 个快速结果进行重新排序,可实现接近最先进水平的性能,同时带来显著的速度提升(例如在 COCO 上比慢速单独时快约 100 倍)。
- 快速+慢速组合在图像数据集(COCO、Flickr30K)上取得强劲结果,并可有效推广到视频数据集(VATEX)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。