QUICK REVIEW

[論文レビュー] 3D Shape Induction from 2D Views of Multiple Objects

Matheus Gadelha, Subhransu Maji|arXiv (Cornell University)|Dec 18, 2016

Advanced Vision and Imaging参考文献 31被引用数 19

ひとこと要約

本稿では、3Dアノテーションや視点情報なしに、複数のオブジェクトの2Dシルエットから3D形状の生成モデルを学習するためのプロジェクト型GAN（PrGAN）を提案する。異なる微分可能プロジェクションモジュールをGANフレームワークに統合することで、3D形状と視点の分離された分布を推論可能とし、実際の3Dデータで訓練された3D-GANと同等の性能を示す、教師なし3D再構築および新規ビュー生成を可能にする。

ABSTRACT

In this paper we investigate the problem of inducing a distribution over three-dimensional structures given two-dimensional views of multiple objects taken from unknown viewpoints. Our approach called "projective generative adversarial networks" (PrGANs) trains a deep generative model of 3D shapes whose projections match the distributions of the input 2D views. The addition of a projection module allows us to infer the underlying 3D shape distribution without using any 3D, viewpoint information, or annotation during the learning phase. We show that our approach produces 3D shapes of comparable quality to GANs trained on 3D data for a number of shape categories including chairs, airplanes, and cars. Experiments also show that the disentangled representation of 2D shapes into geometry and viewpoint leads to a good generative model of 2D shapes. The key advantage is that our model allows us to predict 3D, viewpoint, and generate novel views from an input image in a completely unsupervised manner.

研究の動機と目的

3Dアノテーションや視点ラベルなしに、複数のオブジェクトの2Dシルエットから3D形状の確率的分布を学習すること。
1つの訓練済みモデルを用いて、単一の2D画像から3D形状と視点を教師なしで推論できること。
トポロジーが異なる形状カテゴリ（例：いす、飛行機、自動車）に一般化可能なフレームワークを構築すること。
2D形状表現における幾何学と視点の分離を実現し、より優れた生成モデルを構築すること。
完全に教師なしの状態で、2D入力から3D形状生成および新規ビュー合成を可能にすること。

提案手法

3Dボクセルグリッドを2Dシルエットにレンダリングする微分可能プロジェクションモジュールを統合したGANフレームワークを用いて、3D形状の深層生成モデルを訓練する。
プロジェクションモジュールはレンダリングパイプラインを近似し、2D画像から3Dボクセル表現への逆誤差伝搬を可能にする。
3D形状は、トポロジカルな一貫性を保証するため、固定解像度の3Dボクセルグリッド内のバイナリーオンライングリッドとして表現される。
生成器はランダムノイズから3D形状を生成し、プロジェクションモジュールがランダムな視点からそれらをレンダリングして、敵対的訓練用の合成2D画像を生成する。
識別器は、実際の2D画像と生成された2Dプロジェクションを区別し、生成器が入力データ分布に一致する投影を持つ3D形状を生成するよう促進する。
敵対的損失を用いてエンドツーエンドで訓練することで、幾何学と視点の分離された表現が暗黙的に出現する。

実験結果

リサーチクエスチョン

RQ1教師なしの3Dアノテーションや視点ラベルなしに、生成モデルは2Dシルエットから分離された3D形状分布を学習できるか？
RQ2PrGANは、2Dビューのみで訓練された場合でも、実際の3Dデータで訓練されたGANと同等の品質の3D形状を生成できるか？
RQ3混合データ（複数のカテゴリ）で訓練した場合、トポロジーが異なる形状カテゴリ（例：いす、飛行機）に一般化できるか？
RQ4モデルは、単一の2D画像から教師なし3D再構築および新規ビュー生成を実行できるか？
RQ5教師ありの補助情報が欠如している状況でも、モデルは単一の入力画像から奥行きと視点をどれほど正確に推論できるか？

主な発見

PrGANは、いす、飛行機、自動車など複数のカテゴリにおいて、実際の3Dデータで訓練されたGANと同等の品質の3D形状を生成する。
複数のカテゴリからなる混合オブジェクトセットで訓練した場合でも、豊富で多様な3D形状の分布を効果的に学習できる。
幾何学と視点の分離表現により、単一の2D画像から正確な教師なし3D再構築および新規ビュー合成が可能になる。
未観測のカテゴリに対しても良好に一般化され、各インスタンス間で一貫性のあるトポロジーを持つ妥当な3D形状を生成する。
シルエットによる内部構造の捉えにくさの制限があるものの、従来のビュー中心の手法に比べて生成能力と一般化性能が優れている。
未知の視点やオブジェクトの識別子に対してもロバストであり、教師なしで3D形状と視点角度の共同分布を学習する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。