Skip to main content
QUICK REVIEW

[論文レビュー] SAVi++: Towards End-to-End Object-Centric Learning from Real-World Videos

Gamaleldin F. Elsayed, Aravindh Mahendran|arXiv (Cornell University)|Jun 15, 2022
Advanced Vision and Imaging被引用数 27
ひとこと要約

SAVi++ は深度ターゲットとスケーリング戦略を用いて、完全なセグメンテーション監督なしで複雑な実世界の動画のオブジェクトをセグメント化・追跡する、スロットベースのビデオオブジェクト中心学習を拡張する。実世界のWaymoデータも sparse LiDAR depth を含む。

ABSTRACT

The visual world can be parsimoniously characterized in terms of distinct entities with sparse interactions. Discovering this compositional structure in dynamic visual scenes has proven challenging for end-to-end computer vision approaches unless explicit instance-level supervision is provided. Slot-based models leveraging motion cues have recently shown great promise in learning to represent, segment, and track objects without direct supervision, but they still fail to scale to complex real-world multi-object videos. In an effort to bridge this gap, we take inspiration from human development and hypothesize that information about scene geometry in the form of depth signals can facilitate object-centric learning. We introduce SAVi++, an object-centric video model which is trained to predict depth signals from a slot-based video representation. By further leveraging best practices for model scaling, we are able to train SAVi++ to segment complex dynamic scenes recorded with moving cameras, containing both static and moving objects of diverse appearance on naturalistic backgrounds, without the need for segmentation supervision. Finally, we demonstrate that by using sparse depth signals obtained from LiDAR, SAVi++ is able to learn emergent object segmentation and tracking from videos in the real-world Waymo Open dataset.

研究の動機と目的

  • 完全な監督なしで動的なシーンに意味のあるオブジェクト中心表現を学習させる動機付け。
  • 動くカメラと実世界の設定において、セグメンテーションと追跡をブートストラップする訓練目標として深度を調査する。
  • 複雑なビデオでオブジェクト中心学習を改善するかを、アーキテクチャのスケーリングとデータ拡張を評価する。
  • スパース深度信号を用いた実世界の運転データで、 Emergent なオブジェクトセグメンテーションと追跡を実証する。

提案手法

  • SAVi++, 深度予測をターゲットとする拡張されたスロットベースのビデオモデルを導入する。
  • RGBベースの信号を、画像空間にエンコードされた深度(および任意でフロー)ターゲットへ置換・補完する。
  • 空間的ディテールを保持するため、グループ正規化と最大プーリングなしで、より強力なエンコーダ(ResNet34 + トランスフォーマー)を使用する。
  • Inception風のランダムクロッピング拡張をフレーム間で一貫して適用する。
  • 利用可能な場合はスパース深度信号(例:LiDAR)で訓練し、LiDAR点をカメラフレームに投影する。
  • 合成MOViデータセット(多様な複雑さ)および実世界のWaymo Openデータセットで評価する。

実験結果

リサーチクエスチョン

  • RQ1深度信号は end-to-end のスロットベース動画モデルにおける Emergent なオブジェクトセグメンテーションと追跡をブートストラップできるか?
  • RQ2アーキテクチャのスケーリングとデータ拡張は、SAVi++ が動くカメラを含む実世界の複雑さに対応できるようになるか?
  • RQ3実世界の運転動画で、スパース深度監督下で Emergent なオブジェクト分解は実現可能か?
  • RQ4SAVi++ は深度信号ノイズやフロー監督の有無にどれだけ敏感か?

主な発見

  • SAVi++ は 複雑な MOVi データセットで、SAVi およびベースラインと比べてオブジェクトのセグメンテーションと追跡を大幅に改善する。
  • 深度ターゲット、より強いエンコーダ、データ拡張を組み合わせることで、MOVi-E の mIoU を 30.7% から 47.1% に引き上げ、MOVi-C/D/E で堅牢な性能を発揮する。
  • Waymo Open では、 sparse depth を用いた SAVi++ が競争力のあるオブジェクト追跡指標を達成し、BBox copy/propagation や深度ベースクラスタリングなどのベースラインを上回る。
  • SAVi++ はフローなしの深度監督だけで動作でき、深度ノイズが顕著でも効果を保つ(最大 40 cm のノイズ)。
  • 条件付けなしの unconditional SAVi++ 結果(最初のフレームのヒントなし)でも、オブジェクトの分解が有望であり、条件付けの枠を超えた適用可能性を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。