[论文解读] SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos
SAVi++通过使用深度目标和缩放策略,在复杂真实世界视频中进行对象分割和追踪,且无需完整分割监督,甚至包含使用稀疏LiDAR深度的真实Waymo数据。
The visual world can be parsimoniously characterized in terms of distinct entities with sparse interactions. Discovering this compositional structure in dynamic visual scenes has proven challenging for end-to-end computer vision approaches unless explicit instance-level supervision is provided. Slot-based models leveraging motion cues have recently shown great promise in learning to represent, segment, and track objects without direct supervision, but they still fail to scale to complex real-world multi-object videos. In an effort to bridge this gap, we take inspiration from human development and hypothesize that information about scene geometry in the form of depth signals can facilitate object-centric learning. We introduce SAVi++, an object-centric video model which is trained to predict depth signals from a slot-based video representation. By further leveraging best practices for model scaling, we are able to train SAVi++ to segment complex dynamic scenes recorded with moving cameras, containing both static and moving objects of diverse appearance on naturalistic backgrounds, without the need for segmentation supervision. Finally, we demonstrate that by using sparse depth signals obtained from LiDAR, SAVi++ is able to learn emergent object segmentation and tracking from videos in the real-world Waymo Open dataset.
研究动机与目标
- 在没有完整监督的情况下,激发学习动态场景的有意义的对象中心表示。
- 研究以深度作为训练目标,在移动摄像机和真实世界环境中引导分割与跟踪。
- 评估架构放大和数据增强是否提升对复杂视频的对象中心学习。
- 展示在真实世界驾驶数据上,利用稀疏深度信号实现的显现对象分割与跟踪。
提出的方法
- 介绍 SAVi++,一种增强的基于槽的时序模型,将深度预测作为目标。
- 用深度(可选地包括光流)目标替换或增强基于RGB的信号,目标在图像空间编码。
- 使用更强的编码器(ResNet34 + Transformer),配合分组归一化且不使用最大池化,以保留空间细节。
- 在整个帧序列中持续应用Inception风格的随机裁剪增强。
- 在可用时使用稀疏深度信号(如 LiDAR)进行训练,将 LiDAR 点投影到相机坐标系。
- 在具有不同复杂度的合成 MOVi 数据集以及真实世界的 Waymo Open 数据集上进行评估。
实验结果
研究问题
- RQ1深度信号是否能够在端到端的槽式视频模型中引导出现的对象分割与追踪?
- RQ2架构放大和数据增强是否使 SAVi++ 能够应对包括移动摄像机在内的真实世界复杂性?
- RQ3在具有稀疏深度监督的真实世界驾驶视频中,显现的对象分解是否可行?
- RQ4SAVi++ 对深度信号噪声以及是否存在/不存在光流监督的敏感度如何?
主要发现
- 与 SAVi 和基线相比,SAVi++ 在复杂 MOVi 数据集上的对象分割与跟踪显著提升。
- 深度目标、增强的编码器和数据增强共同将 MOVi-E 的 mIoU 从 30.7%(SAVi)提升到 47.1%,并在 MOVi-C/D/E 上实现稳健性能。
- 在 Waymo Open 上,SAVi++ 采用稀疏深度实现具有竞争力的对象跟踪指标,优于如 BBox 复制/传播和基于深度的聚类等基线。
- SAVi++ 仅可在深度监督下工作(甚至不需要光流),并在显著深度噪声(高达 40 cm)下仍然有效。
- 无条件的 SAVi++ 结果(不使用首帧提示)仍显示出有前景的对象分解,表明其在条件之外的更广泛适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。