[论文解读] Simple Unsupervised Object-Centric Learning for Complex and Naturalistic Videos
STEVE 引入了一个最小的、基于 transformer 的槽解码器(SLATE),扩展到视频,在复杂、自然主义数据集上实现强大的无监督对象中心分割与跟踪,无需监督。
Unsupervised object-centric learning aims to represent the modular, compositional, and causal structure of a scene as a set of object representations and thereby promises to resolve many critical limitations of traditional single-vector representations such as poor systematic generalization. Although there have been many remarkable advances in recent years, one of the most critical problems in this direction has been that previous methods work only with simple and synthetic scenes but not with complex and naturalistic images or videos. In this paper, we propose STEVE, an unsupervised model for object-centric learning in videos. Our proposed model makes a significant advancement by demonstrating its effectiveness on various complex and naturalistic videos unprecedented in this line of research. Interestingly, this is achieved by neither adding complexity to the model architecture nor introducing a new objective or weak supervision. Rather, it is achieved by a surprisingly simple architecture that uses a transformer-based image decoder conditioned on slots and the learning objective is simply to reconstruct the observation. Our experiment results on various complex and naturalistic videos show significant improvements compared to the previous state-of-the-art.
研究动机与目标
- 促使无监督的对象中心表示能够泛化到复杂的自然场景和视频。
- 证明一个简单的架构能够在视频中实现对象的出现而无需监督。
- 评估基于 transformer 的槽解码器(SLATE)在时序模型中的有效性。
- 在多样且具有挑战性的数据集上评估 STEVE,并分析其鲁棒性和泛化能力。
提出的方法
- 使用基于 CNN 的图像编码器从每帧提取特征。
- 在每帧保持 N 个槽,并通过跨时间的循环槽编码器进行更新。
- 使用基于槽的变换器解码器对帧进行解码,条件为槽和离散 VAE 令牌。
- 使用结合令牌预测的交叉熵和 dVAE 图像重构损失的重建目标进行训练。
- 将每个视频帧视为来自 dVAE 的离散令牌序列,并训练变换器在给定槽的情况下自回归地预测它们。
实验结果
研究问题
- RQ1槽-变换器解码器是否能够在不增加架构复杂性的情况下有效扩展到时序视频数据?
- RQ2STEVE 是否在超越合成数据集的复杂自然视频上实现了鲁棒的无监督对象中心分割和跟踪?
- RQ3时序学习如何与强大的基于变换器的解码器在对象中心的视频表示中互动?
- RQ4数据复杂性(纹理、纹理+运动)对分割以及对新对象和新纹理的泛化有什么影响?
主要发现
- STEVE 在五个带纹理的数据集上显著提升前景图像分割(FG-ARI)相对于基线。
- STEVE 在多个数据集上实现了更好的无监督视频分割(Video FG-ARI),尤其是在带纹理内容时。
- 与 SLATE 相比,STEVE 提供对齐的槽表示和视频中的一致跟踪,而 SLATE 在一些复杂视频上失败。
- STEVE 对相机运动和静态对象保持鲁棒,并在许多情况下对分布外的对象数量和未见纹理具有泛化能力。
- 在自然数据集(Traffic, Aquarium)上,STEVE 明显优于基线,体现了在现实场景中的强大性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。