QUICK REVIEW

[論文レビュー] Efficient inference in occlusion-aware generative models of images

Jonathan Huang, Kevin Murphy|arXiv (Cornell University)|Nov 19, 2015

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 37

ひとこと要約

本稿では、前景から背景へと順番に合成することで、レイヤー化された画像表現を逐次的に推論する、完全に微分可能な教師なし生成モデルである、合成的空間変換変分オートエンコーダー（CST-VAE）を提案する。空間変換器と形状の事前知識を統合することで、コンテンツとポーズを分離し、Superimposed MNISTにおけるオクルージョンに配慮した画像生成および分離表現学習において、ベースラインのVAEおよびST-VAEを上回る性能を達成する。再構成および下流分類タスクにおいて優れた結果を示す。

ABSTRACT

We present a generative model of images based on layering, in which image layers are individually generated, then composited from front to back. We are thus able to factor the appearance of an image into the appearance of individual objects within the image --- and additionally for each individual object, we can factor content from pose. Unlike prior work on layered models, we learn a shape prior for each object/layer, allowing the model to tease out which object is in front by looking for a consistent shape, without needing access to motion cues or any labeled data. We show that ordinary stochastic gradient variational bayes (SGVB), which optimizes our fully differentiable lower-bound on the log-likelihood, is sufficient to learn an interpretable representation of images. Finally we present experiments demonstrating the effectiveness of the model for inferring foreground and background objects in images.

研究の動機と目的

オクルージョンしたシーンからのレイヤー化された画像表現を推論できる、完全に微分可能な教師なし深層生成モデルの開発。
変分オートエンコーダーの枠組み内で空間変換器ネットワークを統合し、コンテンツからポーズ（例：位置、スケール）を分離する。
画像形成を前から後ろへ順次レイヤー合成としてモデル化することで、ごちゃついた画像における解釈可能で分離可能な推論を実現する。
推論された潜在表現が、オクルージョン画像データにおける下流分類タスクの性能を向上させることを示す。
教師なしで学習された形状の事前知識が、動きやラベルデータに依存せずにオクルージョンの曖昧さを解消できることを示す。

提案手法

本モデルは、ポーター・ダフの「over」演算子を用いて前から後ろへとレイヤーを合成する、微分可能で逐次的な画像生成プロセスを有する変分オートエンコーダー（VAE）フレームワークを採用する。
空間変換器ネットワーク（STN）を統合することで、コンテンツからポーズの変動（例：平行移動、スケール）を要因分解し、分離表現学習を可能にする。
各画像レイヤーは、コンテンツおよびポーズの潜在ベクトルをサンプリングする確率的プロセスによって生成され、形状の事前知識はバックプロパゲーションによりエンドツーエンドで学習される。
推論は、下流から上流への交互プロセスで実行される：まず下流認識により前景オブジェクトを検出し、次に再構成を生成・差し引くことで残りのレイヤーを露わにする。
観測された画像の対数尤度の下界を最適化するために、確率的勾配変分ベイズ（SGVB）を用いてモデルを訓練する。
アーキテクチャは固定されたレイヤー数（N）を仮定し、各レイヤーごとに別個のコンテンツおよびポーズの潜在変数を有し、完全に微分可能な合成操作を用いる。

実験結果

リサーチクエスチョン

RQ1完全に微分可能な教師なし深層生成モデルは、オクルージョン画像における重なり合うオブジェクトの解釈可能で分離可能な表現を推論できるか？
RQ2教師なしで学習された形状の事前知識は、動きの情報やアノテーションに依存せずに、オクルージョンの曇りを解消し、正確なレイヤー分離を可能にするか？
RQ3VAEフレームワーク内に空間変換器を統合することで、画像生成および推論におけるコンテンツとポーズの分離性が向上するか？
RQ4CST-VAEモデルが推論する潜在表現は、オクルージョン画像データにおける下流分類タスクで、標準VAEおよびST-VAEのそれよりも優れた性能を示すか？
RQ5標準VAE画像生成と比較して、順次的でレイヤー化された合成プロセスは、複雑なオクルージョンをモデル化する上でより効果的か？

主な発見

CST-VAEモデルは、Superimposed MNISTデータセットにおいて、標準VAEおよびST-VAEモデルよりも顕著に高いテスト対数尤度を達成し、画像データ分布のモデリング能力が優れていることを示している。
平均して、CST-VAEモデルは、重度のオクルージョン下でも前景および背景の数字を高い忠実度で再構成でき、分離されたレイヤーの可視化によってその有効性が裏付けられている。
CST-VAEの潜在コンテンツベクトルに基づく分類器は、オクルージョン画像を用いた2桁分類タスクにおいて、ヴァニラVAE（9.2%）と比較してほぼ2倍の精度（16.8%）を達成した。
モデルは、各レイヤーのコンテンツおよびポーズベクトルの事後分布平均を用いて、コンテンツとポーズを効果的に分離しており、解釈可能で意味的に意味のある再構成が得られている。
形状の事前知識の導入により、動きやラベルデータに依存せずに、正しいレイヤー順序とオブジェクトの識別が可能となり、オクルージョンに対する耐性が示された。
128次元の隠れ層を用いた場合、異なるランダム初期化に対してもモデルの性能が安定しており、小規模なアーキテクチャに比べて訓練収束性が向上していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。