Skip to main content
QUICK REVIEW

[論文レビュー] Sequential Attend, Infer, Repeat: Generative Modelling of Moving Objects

Adam R. Kosiorek, Hyunjik Kim|arXiv (Cornell University)|Jun 5, 2018
Generative Adversarial Networks and Image Synthesis被引用数 94
ひとこと要約

sqair は AIR を映像へ拡張し、時空間状態空間モデルを組み込むことで、遮蔽や重なりの処理を改善しつつ、フレーム間での動く物体を無監督で発見・追跡・生成できるようにします。

ABSTRACT

We present Sequential Attend, Infer, Repeat (SQAIR), an interpretable deep generative model for videos of moving objects. It can reliably discover and track objects throughout the sequence of frames, and can also generate future frames conditioning on the current frame, thereby simulating expected motion of objects. This is achieved by explicitly encoding object presence, locations and appearances in the latent variables of the model. SQAIR retains all strengths of its predecessor, Attend, Infer, Repeat (AIR, Eslami et. al., 2016), including learning in an unsupervised manner, and addresses its shortcomings. We use a moving multi-MNIST dataset to show limitations of AIR in detecting overlapping or partially occluded objects, and show how SQAIR overcomes them by leveraging temporal consistency of objects. Finally, we also apply SQAIR to real-world pedestrian CCTV data, where it learns to reliably detect, track and generate walking pedestrians with no supervision.

研究の動機と目的

  • 監督なしで、映像中の解釈可能で時間的一貫性のある物体表現を学習させる動機づけ。
  • AIR フレームワークをシーケンスに拡張して、フレーム間の物体の持続性・外観・運動をモデル化する。
  • 場面に入る、持続する、または消える物体を追跡・管理するための discovery-propagation 推論機構を開発する。
  • 合成データと実世界データの両方で、物体数カウント・再構成・下流タスクの有用性の改善を実証する。

提案手法

  • Discovery と Propagation コンポーネントを備えた、シーケンシャルで確率的なモデルとして AIR を拡張する。
  • 既存の物体には propagation prior、新規の物体には discovery prior を用いて、時間を通じて z^what、z^where、z^pres を用いて物体をモデル化する。
  • 時間的 RNN と関係性 RNN を用いて explain-away を実装し、時間を通じた物体間相互作用を捉える。
  • IWAE 目的で学習し、離散変数には VIMCO 勾配推定器を用いる。
  • 2 つのアーキテクチャ(mlp と conv-sqair)を提供し、 AIR および vrnn をベースラインとして比較する。
  • 時間を通じて物体の存在・位置・外観を明示的にエンコードすることで解釈可能性を維持する。

実験結果

リサーチクエスチョン

  • RQ1sqair は監督なしで、ビデオ列から物体を信頼性高く発見・追跡・解釈できるか?
  • RQ2時間的一貫性を取り入れることで、フレーム単位の AIR と比べて物体数のカウント・外観の保持・将来フレームの生成が改善されるか?
  • RQ3合成データの moving MNIST と実データの CCTV 歩行者データに対して、尤度・再構成・潜在的解釈性の観点で sqair はどのように性能を示すか?
  • RQ4時間的伝播と発見が、遮蔽や物体の重なりの取り扱いに与える影響はどうか?

主な発見

  • conv-sqair を用いた moving MNIST に対して baselines より高い周辺対数尤度(IWAE bound) を達成し、6784.8 (log p_theta(x1:T))、6923.8 (log p_theta(x1:T | z1:T))、KL 134.6、カウント精度 0.9974、加算精度 0.9990。
  • mlp-sqair および conv-sqair は、尤度と再構成指標の双方で AIR と vrnn のベースラインを大幅に上回り、conv-sqair が総合スコアで最良を達成。
  • sqair は vrnn および AIR と比較して KL ダイバージェンスを低減し、時系列的に一貫した物体表現を介したより良い圧縮性を示す。
  • sqair は条件付き生成が可能で、初期フレームに条件づけられた妥当な将来フレームを生成し、時間を通じて外観と運動を保持する。
  • 実デ CCTV データでは、sqair は無監督で歩行者を検出・追跡することを学習し、妥当な定性的再構成と条件付き生成結果を示すものの、データセットが小さい場合は物体カウントが依然難しい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。