QUICK REVIEW

[論文レビュー] Bridging the Gap to Real-World Object-Centric Learning

Maximilian Seitzer, Max Horn|arXiv (Cornell University)|Sep 29, 2022

Advanced Image and Video Retrieval Techniques被引用数 31

ひとこと要約

DINOSAUR は画像ベースの無監督のオブジェクト中心モデルで、スロットアテンションと自己 supervise feature reconstruction (via DINO) を用いて物体を発見し、COCO や PASCAL VOC のような現実世界データへスケールする。

ABSTRACT

Humans naturally decompose their environment into entities at the appropriate level of abstraction to act in the world. Allowing machine learning algorithms to derive this decomposition in an unsupervised way has become an important line of research. However, current methods are restricted to simulated data or require additional information in the form of motion or depth in order to successfully discover objects. In this work, we overcome this limitation by showing that reconstructing features from models trained in a self-supervised manner is a sufficient training signal for object-centric representations to arise in a fully unsupervised way. Our approach, DINOSAUR, significantly out-performs existing image-based object-centric learning models on simulated data and is the first unsupervised object-centric model that scales to real-world datasets such as COCO and PASCAL VOC. DINOSAUR is conceptually simple and shows competitive performance compared to more involved pipelines from the computer vision literature.

研究の動機と目的

合成データを超えてスケールする無監督オブジェクト中心学習を動機づける。
トレーニング信号として高レベル特徴再構成を用い、モーション・深度・外部監督への依存を排除する。
自己監督型特徴が現実世界の画像でのオブジェクトグルーピングに強い帰納的バイアスを提供するかを調査する。
事前学習済みの自己監督特徴とグルーピングモジュールを組み合わせることで、現実世界データセットで競争力のあるまたは優れた性能を実証する。

提案手法

凍結された自己監督事前学習エンコーダ（DINO ViT または ResNet）から入力特徴を抽出する。
Slot Attention を用いてエンコーダ特徴を K 個の潜在スロットにグループ化する。
スロットから事前学習済み特徴を再構成するデコーダを訓練する（特徴再構成損失）。
スロットごとのMLPデコーダーまたは特徴を再構成する Transformer 自回帰デコーダーを実験する。
マスクや FG-ARI や mean Best Overlap (mBO) のような指標でオブジェクト中心の発見を評価する。
Slot Attention、SLATE、単純なブロックベースのグルーピングを含むベースラインと比較する; デコーダの影響と事前学習信号を分析する。

実験結果

リサーチクエスチョン

RQ1現実世界データでピクセルレベルの再構成ではなく特徴レベルの再構成を用いて、無監督のオブジェクト中心表現が出現することはあるか。
RQ2自己監督型事前学習特徴（例: DINO）を活用することで、追加の監督なしに COCO および PASCAL VOC でのオブジェクト発見が可能か。
RQ3エンコーダの選択とデコーダのアーキテクチャは、現実世界のシーンでのインスタンスレベル対セマンティックレベルのオブジェクトグルーピングにどのように影響するか。
RQ4DINOSAUR は現実世界のベンチマークで他の無監督オブジェクト中心および CV 手法とどう比較されるか。
RQ5自己監督 pre-training 目標は無監督設定でのオブジェクト発見をどのように導く役割を果たすか。

主な発見

DINOSAUR は合成 MOVi データセットで画像ベースのオブジェクト中心手法を大幅に上回り、COCO や PASCAL VOC のような現実世界データへスケールする。
Slot Attention による自己監督特徴再構成を用いると、現実世界のオブジェクト発見のためのより複雑なCVパイプラインと競合する結果を得られる。
DINO を用いた事前学習 ViT エンコーダ（および他の自己監督ターゲット）はゼロから訓練しても強力なオブジェクトグルーピングを可能にし、自己監督事前学習はオブジェクト発見へ転移する。
MLPデコーダはインスタンスレベルのグルーピングへ偏らせる一方、Transformerデコーダはより多くのスロットを使用するコストでセマンティックグルーピングを改善できる; デコーダの選択は定位化対セグメンテーション指標に影響を与える。
COCO では DINOSAUR は FG-ARI と mBO の指標でベースラインと競合的、PASCAL VOC では無監督オブジェクトセグメンテーション設定で依然として競争力を維持。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。