Skip to main content
QUICK REVIEW

[论文解读] SCALOR: Generative World Models with Scalable Object Representations

Jindong Jiang, Sepehr Janghorbani|arXiv (Cornell University)|Oct 6, 2019
Generative Adversarial Networks and Image Synthesis被引用 29
一句话总结

SCALOR 是一种概率生成世界模型,可实现视频中高达 100 个运动物体和动态背景的可扩展、并行的面向对象表征学习。它通过空间并行注意力机制和提议-拒绝机制,实现每张图像 O(1) 的时间复杂度,显著优于先前的模型(如 SQAIR),在可扩展性、计算效率以及对具有复杂动态的自然场景的适用性方面表现更优。

ABSTRACT

Scalability in terms of object density in a scene is a primary challenge in unsupervised sequential object-oriented representation learning. Most of the previous models have been shown to work only on scenes with a few objects. In this paper, we propose SCALOR, a probabilistic generative world model for learning SCALable Object-oriented Representation of a video. With the proposed spatially-parallel attention and proposal-rejection mechanisms, SCALOR can deal with orders of magnitude larger numbers of objects compared to the previous state-of-the-art models. Additionally, we introduce a background module that allows SCALOR to model complex dynamic backgrounds as well as many foreground objects in the scene. We demonstrate that SCALOR can deal with crowded scenes containing up to a hundred objects while jointly modeling complex dynamic backgrounds. Importantly, SCALOR is the first unsupervised object representation model shown to work for natural scenes containing several tens of moving objects.

研究动机与目标

  • 解决现有无监督面向对象表征模型的可扩展性限制,这些模型通常因顺序处理而仅能处理少量物体。
  • 实现在自然视频场景中对复杂动态背景和大量前景物体的联合建模。
  • 通过并行化对象传播和发现过程,将时间复杂度从 O(N) 降低至 O(1)。
  • 通过引入提议-拒绝机制和空间并行注意力,提高跟踪准确性并减少重新发现。
  • 首次展示概率生成模型在包含数十个运动物体和动态背景的自然场景中的成功应用。

提出的方法

  • 引入一种空间并行注意力机制,实现所有物体的同时处理,将每张图像的时间复杂度降低至 O(1)。
  • 提出一种提议-拒绝机制,通过减少对重新发现的依赖并防止传播崩溃,提升对象跟踪性能。
  • 采用带有变分自编码器的背景模块,独立于前景物体对复杂动态背景进行建模。
  • 采用受 SQAIR 启发的概率框架,但将基于 RNN 的顺序处理替换为并行推理,用于发现和传播。
  • 使用可微分的提议网络生成候选对象状态,并通过拒绝机制在传播过程中过滤掉误报。
  • 利用联合生成模型,将对象存在性、姿态和外观分解为独立的潜在变量,实现解耦表征学习。

实验结果

研究问题

  • RQ1生成世界模型能否在保持计算效率的前提下,扩展到包含高达 100 个运动物体的场景?
  • RQ2如何并行化对象发现和传播过程,以将时间复杂度从 O(N) 降低至 O(1)?
  • RQ3能否通过统一模型在自然视频场景中联合建模动态背景和大量前景物体?
  • RQ4与基于顺序 RNN 的模型相比,提议-拒绝机制是否能提升跟踪稳定性并减少重新发现?
  • RQ5概率生成模型能否在复杂场景中实现具有竞争力的生成质量,同时学习结构化、解耦的表征?

主要发现

  • SCALOR 在使用注意力机制时传播率达到 95%,在同时使用注意力和拒绝机制时达到 100%,显著优于未使用这些机制的设置。
  • 该模型将每张图像的推理时间降低至 O(1),而 SQAIR 的时间复杂度随物体数量线性增长,因此在大规模场景下快了数个数量级。
  • 在 MNIST VLD 设置下,SCALOR 的 MSE 低于 SQAIR,且收敛速度高出数个数量级,证明了其优越的训练效率。
  • 在 Grand Central Station 数据集上,SCALOR 的测试 NLL 为 28.30,与基线模型(VAE: 27.59,VRNN: 27.79)相当,尽管其学习了高度结构化的表征。
  • SCALOR 是首个在包含数十个运动物体和动态背景的自然场景中成功应用的无监督对象表征模型,标志着迈向真实世界视频理解的重要一步。
  • 消融实验确认,即使使用注意力机制,拒绝机制对于实现完全的传播准确率也至关重要。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。