QUICK REVIEW

[论文解读] Localizing Objects with Self-Supervised Transformers and no Labels

Oriane Siméoni, Gilles Puy|arXiv (Cornell University)|Sep 29, 2021

Advanced Neural Network Applications参考文献 77被引用 107

一句话总结

LOST 在不使用任何标签的前提下，使用补丁级自监督变换器特征在单张图像中定位对象，达到无监督对象发现的最先进 CorLoc，并实现无监督的类别无关与类别相关检测。

ABSTRACT

Localizing objects in image collections without supervision can help to avoid expensive annotation campaigns. We propose a simple approach to this problem, that leverages the activation features of a vision transformer pre-trained in a self-supervised manner. Our method, LOST, does not require any external object proposal nor any exploration of the image collection; it operates on a single image. Yet, we outperform state-of-the-art object discovery methods by up to 8 CorLoc points on PASCAL VOC 2012. We also show that training a class-agnostic detector on the discovered objects boosts results by another 7 points. Moreover, we show promising results on the unsupervised object discovery task. The code to reproduce our results can be found at https://github.com/valeoai/LOST.

研究动机与目标

在无标注的图像集合中推动对象定位，以降低标注成本。
利用自监督视觉变换器的补丁级相关性，在单张图像中定位对象。
证明基于种子的定位可以超越区域提议，并为下游无监督检测任务提供支持。
证明来自 LOST 的伪标签可以在无监督条件下训练类别无关和类别相关的检测器。

提出的方法

使用以 DINO 预训练的视觉变换器从单张图像提取基于补丁的特征。
构建一个补丁相似性图，利用补丁特征之间的正相关，并将图中度数最低的补丁识别为初始种子。
通过迭代地添加与种子正相关且位于最低度数集合中的补丁来扩展种子。
通过将图像补丁与种子相关联来计算二值对象掩码，并从包含种子的最大连通分量中提取对象边界框。
在 LOST 框上训练类别无关检测器，以获得每张图像的多目标检测。
对发现对象的 CLS 令牌进行聚类以获得用于无监督类别感知检测的伪标签，并使用匈牙利匹配将聚类映射到实际类别以进行评估。

实验结果

研究问题

RQ1无需任何标注，自对称变换器激活是否能在单张图像中定位对象？
RQ2基于补丁相关性的种子选择与扩展如何影响定位质量？
RQ3基于 LOST 的框是否能训练出有效的类别无关检测器，并在结合聚类伪标签时提升无监督对象检测？

主要发现

LOST 在 VOC07、VOC12 和 COCO_20k 的 CorLoc 上显著超越最先进的无监督对象发现方法。
在 LOST 框上训练类别无关检测器，在评估数据集上进一步使 CorLoc 提升 4-7 点。
使用 LOST 框和聚类训练的无监督类别感知检测在 VOC07 上实现有竞争力的 AP@0.5，包括在若干类别（如飞机、公交车、狗、马、火车、猫）上超过弱监督方法。
基于 LOST 的伪箱用于检测器训练，相比初始伪箱显著改善 AP。
骨干网络的选择很关键；在测试的骨干中，ViT-S/16 配合 DINO 特征表现最佳。
LOST 实现按图像的可扩展、线性复杂度定位，无需跨图像搜索，适用于大型数据集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。