QUICK REVIEW

[論文レビュー] Neural Expectation Maximization

Klaus Greff, Sjoerd van Steenkiste|arXiv (Cornell University)|Aug 11, 2017

Gaussian Processes and Bayesian Inference参考文献 31被引用数 50

ひとこと要約

ニューラル期待値最大化（N-EM）は、教師なしで分化可能なEMフレームワークにより、画像中の複数の物体をクラスタリングして表現する方法を学習し、RNN-EMを用いて逐次データへ拡張する。

ABSTRACT

Many real world tasks such as reasoning and physical interaction require identification and manipulation of conceptual entities. A first step towards solving these tasks is the automated discovery of distributed symbol-like representations. In this paper, we explicitly formalize this problem as inference in a spatial mixture model where each component is parametrized by a neural network. Based on the Expectation Maximization framework we then derive a differentiable clustering method that simultaneously learns how to group and represent individual entities. We evaluate our method on the (sequential) perceptual grouping task and find that it is able to accurately recover the constituent objects. We demonstrate that the learned representations are useful for next-step prediction.

研究の動機と目的

結合問題に対処するため、複数の物体に対して別個で分布的な表現を学習する動機づけ。
物体表現を、空間混合モデル内のニューラルネットワークでパラメータ化された成分として形式化する。
ピクセルを物体へクラスタリングし、物体特有の表現を学習するための微分可能なEM手順を導出する。
次ステップ予測とグルーピングの改善のために、逐次データにフレームワークを拡張する。
ラベル付きセグメント化なしで教師なし訓練を提供し、合成データセットで評価する。

提案手法

画像を K 成分の空間混合としてモデル化し、各成分パラメータ theta_k を、微分可能な f_phi によって画素尤度 psi_i,k に写像する。
現在の psi と x に基づいてソフトな画素割り当て gamma_i,k を得るようEステップを計算する。
微分可能な f_phi を用いて theta_k を更新するよう、Q の勾配上昇で Mステップを実行する（式4）。
EM反復をアンrollして、時系列を通じた誤差逆伝播で訓練されるエンドツーエンドの微分可能なクラスタリング手順（N-EM）を作成する。
Mステップを学習済みの再帰ネットワークに置き換えて、逐次データを処理しグルーピングを改善するRNN-EMを導入する。
ガンマで重み付けされたクラスター内再構成と、割り当てられない画素を制約するクラスター間KLペナルティの2項Lossで訓練する。

実験結果

リサーチクエスチョン

RQ1教師なしニューラルネットは、空間混合モデル内で複数の物体を別々で分離された成分として発見・表現できるか？
RQ2微分可能なEMは、次ステップ予測のために有用な物体中心表現を提供するエンドツーエンドの訓練を可能にするか？
RQ3この手法は逐次データへどれほど適用可能で、時間を通じて頑健な知覚的グルーピングを提供するか？

主な発見

N-EMとRNN-EMは、物体が分離している場合、静的なグルーピングタスクで個別の形を回復できる。
RNN-EMは一般にグルーピング性能（AMI）がN-EMより高く、特に遮蔽下で顕著である。
Flying Shapes では、物体数が増えてもAMIスコアは高く、見たことのないシーケンス長や物体数への一般化も良好である。
次ステップ予測は複数物体表現の恩恵を受け、物体が存在する場合、RNN-EMは単一成分の再帰オートエンコーダより予測誤差が小さい。
Flying MNIST では、2桁の場合のテストでAMIが最大0.917±0.005を達成し、再訓練なしで3桁へ一般化する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。