QUICK REVIEW

[論文レビュー] Relational Neural Expectation Maximization: Unsupervised Discovery of Objects and their Interactions

Sjoerd van Steenkiste, Michael Chang|arXiv (Cornell University)|Feb 28, 2018

Multimodal Machine Learning Applications参考文献 37被引用数 134

ひとこと要約

R-NEMは生データ視覚情報から監視なしのオブジェクト中心表現を学習し、Relational inductive biasを用いてオブジェクト間相互作用をモデル化し、異なる数のオブジェクトや遮蔽のある場面へ外挿を可能にする。N-EMをベースにして、物理ダイナミクスを模倣する対ペア相互作用モジュールを追加する。

ABSTRACT

Common-sense physical reasoning is an essential ingredient for any intelligent agent operating in the real-world. For example, it can be used to simulate the environment, or to infer the state of parts of the world that are currently unobserved. In order to match real-world conditions this causal knowledge must be learned without access to supervised data. To address this problem we present a novel method that learns to discover objects and model their physical interactions from raw visual images in a purely \emph{unsupervised} fashion. It incorporates prior knowledge about the compositional nature of human perception to factor interactions between object-pairs and learn efficiently. On videos of bouncing balls we show the superior modelling capabilities of our method compared to other unsupervised neural approaches that do not incorporate such prior knowledge. We demonstrate its ability to handle occlusion and show that it can extrapolate learned knowledge to scenes with different numbers of objects.

研究の動機と目的

視覚場面で構成的なオブジェクト表現を用いて、監視なしのオブジェクト発見を可能にする。
オブジェクト間の相互作用をモデル化して物理ダイナミクスを捉える。
異なる数のオブジェクトや遮蔽がある場面への頑健な一般化を達成する。
混雑した環境での予測精度と短期的なオブジェクト運動のシミュレーションを実証する。

提案手法

Relational interaction functionを用いて Neural Expectation Maximization (N-EM)を拡張し、R-NEMを形成する。
各オブジェクトを潜在表現 theta_kで表し、ピクセル生成をニューラルネットワーク f_phiでモデル化する。
ピクセルをオブジェクト成分へ割り当てるEステップと、オブジェクト表現を更新するMステップを含む一般化EMフレームワークを用いる。
学習済み埋め込みとアテンション係数を通じてペアワイズ効果を計算するUpsilon^R-NEMという相互作用関数を組み込む。
オブジェクト表現とダイナミクスの学習を導くために、デノイジング/次ステップ予測を備えたエンコーダ-デコーダアーキテクチャを採用する。
時間を通じてバックプロパゲーションすることで、同一クラスタ内項とクラスタ間項を組み合わせた損失を最適化し、エンドツーエンドで訓練する（式(3)）。

実験結果

リサーチクエスチョン

RQ1教師なしの生データ視覚入力から、オブジェクト中心の表現を学習できるか？
RQ2関係的メカニズムは、オブジェクト間のダイナミクスを学習して将来のフレームを予測することを可能にするか？
RQ3訓練時に見たより多い・少ないオブジェクトを含む場面へ、オブジェクト中心の表現は一般化するか？
RQ4遮蔽に対して頑健で、動的場面でオブジェクトの永続性を保てるか？
RQ5オブジェクト間のアテンションは、学習と物理的相互作用の外挿にどのように影響するか？

主な発見

R-NEMは、跳ねる球の系列に対して、予測損失および関係性のBCE損失がベースライン（RNN, LSTM, RNN-EM）より低い。
R-NEMはARIスコア約0.8を達成し、4-ball場面でほとんどのボールが別個の成分としてモデル化されていることを示す。
モデルは6–8ボールの場面へ他の競合より外挿でき、見たことのないオブジェクト数への一般化が向上している。
R-NEMはダイナミクスを正確にシミュレートし、ステップ間でオブジェクトの形状と位置を保持し、RNNベースのアプローチを上回る。
遮蔽シナリオ（カーテン実験）では、R-NEMがオブジェクト状態を保持し、再出現を予測してオブジェクト恒常性を示す。
アテンション機構は衝突イベントと整合し、相互作用時に文脈オブジェクトの影響を活性化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。