QUICK REVIEW

[论文解读] Bridging the Gap to Real-World Object-Centric Learning

Maximilian Seitzer, Max Horn|arXiv (Cornell University)|Sep 29, 2022

Advanced Image and Video Retrieval Techniques被引用 31

一句话总结

DINOSAUR 是一个无监督、基于图像的面向对象的模型，使用自监督特征重构（通过 DINO）结合 Slot Attention 来发现对象，并可扩展到真实世界数据，如 COCO 和 PASCAL VOC。

ABSTRACT

Humans naturally decompose their environment into entities at the appropriate level of abstraction to act in the world. Allowing machine learning algorithms to derive this decomposition in an unsupervised way has become an important line of research. However, current methods are restricted to simulated data or require additional information in the form of motion or depth in order to successfully discover objects. In this work, we overcome this limitation by showing that reconstructing features from models trained in a self-supervised manner is a sufficient training signal for object-centric representations to arise in a fully unsupervised way. Our approach, DINOSAUR, significantly out-performs existing image-based object-centric learning models on simulated data and is the first unsupervised object-centric model that scales to real-world datasets such as COCO and PASCAL VOC. DINOSAUR is conceptually simple and shows competitive performance compared to more involved pipelines from the computer vision literature.

研究动机与目标

激发无监督的面向对象学习，能够超越合成数据的规模。
通过使用高层特征重构作为训练信号，消除对运动、深度或外部监督的依赖。
研究自监督特征是否为真实世界图像中的对象分组提供强的归纳偏置。
证明将预训练的自监督特征与分组模块相结合，在真实世界数据集上可获得有竞争力甚至更优的性能。

提出的方法

使用冻结的自监督预训练编码器（DINO ViT 或 ResNet）从输入中提取特征。
使用 Slot Attention 将编码器特征分组到 K 个潜在槽中。
训练解码器从槽中重建预训练特征（特征重构损失）。
尝试使用 MLP 解码器（每个槽一个）或 Transformer 自回归解码器来重建特征。
通过掩码以及 FG-ARI 和 mean Best Overlap (mBO) 等指标评估面向对象的发现。
与基线方法（包括 Slot Attention、SLATE 以及简单基于块的分组）进行比较；分析解码器影响和预训练信号。

实验结果

研究问题

RQ1在真实世界数据上，是否可以仅通过特征级重构而非像素级重构来产生无监督的面向对象表示？
RQ2利用自监督预训练特征（如 DINO）是否能在 COCO 和 PASCAL VOC 上实现对象发现，而无需额外监督？
RQ3编码器选择和解码器架构如何影响真实世界场景中的实例级与语义级对象分组？
RQ4在真实世界基准上，DINOSAUR 与其他无监督面向对象和计算机视觉方法相比如何？
RQ5自监督预训练目标在无监督设置中引导对象发现的作用是什么。

主要发现

DINOSAUR 在合成 MOVi 数据集上显著优于基于图像的方法，并可扩展到真实世界数据，如 COCO 和 PASCAL VOC。
使用自监督特征重构结合 Slot Attention 在真实世界对象发现方面与更复杂的计算机视觉流程相比具有竞争力。
使用 DINO 的预训练 ViT 编码器（以及其他自监督目标）即使从头训练也能实现强对象分组；自监督预训练可迁移到对象发现。
MLP 解码器偏向实例级分组，而 Transformer 解码器在使用更多槽的代价下可以改善语义分组；解码器的选择会影响定位与分割指标。
在 COCO 上，DINOSAUR 在 FG-ARI 和 mBO 指标上与基线相比具有竞争力；在 PASCAL VOC 上，在无监督对象分割设置中也保持竞争力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。