QUICK REVIEW

[論文レビュー] Object-Centric Learning with Slot Attention

Francesco Locatello, Dirk Weissenborn|arXiv (Cornell University)|Jun 26, 2020

Multimodal Machine Learning Applications参考文献 89被引用数 218

ひとこと要約

本論文は Slot Attention を紹介します。これは CNN の知覚特徴を交換可能なスロットの集合へ変換する反復的注意モジュールで、オブジェクトへ結びつけることができ、教師なしのオブジェクト発見と教師ありの集合ベースの特性予測を可能にします。

ABSTRACT

Learning object-centric representations of complex scenes is a promising step towards enabling efficient abstract reasoning from low-level perceptual features. Yet, most deep learning approaches learn distributed representations that do not capture the compositional properties of natural scenes. In this paper, we present the Slot Attention module, an architectural component that interfaces with perceptual representations such as the output of a convolutional neural network and produces a set of task-dependent abstract representations which we call slots. These slots are exchangeable and can bind to any object in the input by specializing through a competitive procedure over multiple rounds of attention. We empirically demonstrate that Slot Attention can extract object-centric representations that enable generalization to unseen compositions when trained on unsupervised object discovery and supervised property prediction tasks.

研究の動機と目的

視覚的場面理解のためのサンプル効率と一般化を改善するために、オブジェクト中心の表現の学習を動機づける。
perceptual encoders とスロットの集合の間の微分可能なインターフェースとして Slot Attention を導入する。
競争的なパフォーマンスとトレーニング効率の向上を伴う教師なしオブジェクト発見を実証する。
スロットがオブジェクトに対応し、特性を予測できるような supervised set prediction を示す。
未知のオブジェクト構成とオブジェクト数に一般化することを議論する。

提案手法

反復注意と共有GRUベースの更新により N 個の入力特徴ベクトルを K 個のスロットに写像する Slot Attention モジュールを提示する。
スロット間で正規化されたドット積注意を用いて、入力部位を説明するスロット間の競合を作る。
各反復の後に GRU と任意の残差 MLP でスロットを更新し、安定した学習のために LayerNorm を適用する。
学習可能なガウス分布からサンプリングしてスロットを初期化し、テスト時のスロット数の変動性を許容する。
モジュールを次の二つとして適用する: (i) 教師なしのオブジェクト発見エンコーダ–デコーダ、(ii) オブジェクト特性の集合予測エンコーダ。

実験結果

リサーチクエスチョン

RQ1Slot Attention は監督なしで perceptual inputs からオブジェクト中心の表現を抽出できるか？
RQ2Slot Attention はマルチオブジェクトデータセット全体で正確な教師なしオブジェクト発見を可能にするか？
RQ3学習されたスロットはオブジェクトの集合の教師あり特性予測をサポートできるか？
RQ4テスト時にスロット数が訓練時より多い場合、Slot Attention はどのように一般化するか？

主な発見

データセット	Slot Attention	IODINE	MONet	Slot MLP
CLEVR6	98.8±0.3	98.8±0.0	96.2±0.6	60.4±6.6
Multi-dSprites	91.3±0.3	76.7±5.6	90.4±0.8	60.3±1.8
Tetrominoes	99.5±0.2	99.2±0.4	—	25.1±34.3

Slot Attention は CLEVR6、Multi-dSprites、Tetrominoes で最先端の教師なしオブジェクト発見法と競合する、またはそれを上回る ARI スコアを達成する。
CLEVR6 で ARI=98.8±0.3; Multi-dSprites ARI=91.3±0.3; Tetrominoes ARI=99.5±0.2（外れ値を1つ除く）。
IODINE および MONet と比較して、Slot Attention はメモリ効率が高く、訓練が速い。
CLEVR10 の集合予測では、Slot Attention は平均適合率で DSPN ベースラインに匹敵または上回り、テスト時の反復を増やすほどスケールする。
Slot Attention によって生成される注意マスクは、直接のセグメンテーション supervise なしでも意味的にオブジェクトをセグメント化できる。
訓練時のスロット数を超えてテスト時にスロット数を増やしても、手法は高い性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。