QUICK REVIEW

[論文レビュー] Escaping Plato's Cave using Adversarial Training: 3D Shape From Unstructured 2D Image Collections.

Philipp Henzler, Niloy J. Mitra|arXiv (Cornell University)|Nov 28, 2018

Image Processing Techniques and Applications被引用数 26

ひとこと要約

PLATONICGANは、敵対的訓練を用いて、非構造化された2D画像コレクションから3D形状を再構築する。生成器は、異なるカメラモデル下で、実際の画像と区別がつかないレンダリング画像を生成する3D形状を生成する。2D-3D整合性を保つために、微分可能レンダリング層（ビジュアルハルフ、吸収のみ、発光・吸収）を用い、3D監視がなくても最先端の結果を達成し、追加の3D監視を加えた3D監視ベースラインを上回る。

ABSTRACT

We introduce PLATONICGAN to discover the 3D structure of an object class from an unstructured collection of 2D images, i. e., neither any relation between the images is available nor additional information about the images is known. The key idea is to train a deep neural network to generate 3D shapes which rendered to images are indistinguishable from ground truth images (for a discriminator) under various camera models (i. e., rendering layers) and camera poses. Discriminating 2D images instead of 3D shapes allows tapping into unstructured 2D photo collections instead of relying on curated (e.g., aligned, annotated, etc.) 3D data sets. To establish constraints between 2D image observation and their 3D interpretation, we suggest a family of rendering layers that are effectively differentiable. This family includes visual hull, absorption-only (akin to x-ray), and emissionabsorption. We can successfully reconstruct 3D shapes from unstructured 2D images and extensively evaluate PLATONICGAN on a range of synthetic and real data sets achieving consistent improvements over baseline methods. We can also show that our method with additional 3D supervision further improves result quality and even surpasses the performance of 3D supervised methods.

研究の動機と目的

画像のアライメント、アノテーション、カメラポーズ情報なしに、非構造化された2D画像コレクションから3D形状構造を回復すること。
アライメントやカメラキャリブレーションを必要とせず、実際のものと区別がつかない画像を合成できる生成モデルを訓練することで、非キュレートされた写真コレクションからの3D再構築を可能にすること。
3D形状とその2D観測の間の幾何的整合性を強制する微分可能な3Dから2Dへのレンダリングパイプラインを確立すること。
2D画像のみに対する敵対的訓練が、明示的な3D監視を持つ手法を上回る高品質な3D再構築をもたらすかどうかを示すこと。

提案手法

生成敵対ネットワーク（GAN）フレームワークを訓練し、生成器が3D形状を生成し、識別器がレンダリングされた2D画像を実際の画像と比較する。
ビジュアルハルフ、吸収のみ（X線に類似）、発光・吸収モデルを含む、さまざまな画像形成プロセスをシミュレートするための微分可能レンダリング層を導入する。
レンダリング層は3D形状パラメータに関して微分可能であり、2D画像空間から3D形状空間へのエンドツーエンドの誤差逆伝播を可能にする。
生成器は、複数のカメラポーズおよびモデル下で、識別器を欺くレンダリング画像を生成する3D形状を最適化する。
画像レベルの対応関係やカメラキャリブレーションを必要としない、非構造化された2D画像コレクションを活用する。
追加の3D監視は、3D監視を加えた性能を、非監視性能を上回るように向上させる損失項を介して統合する。

実験結果

リサーチクエスチョン

RQ13D監視や画像のアライメントなしに、非構造化された2D画像コレクションから3D形状再構築が可能か？
RQ2微分可能レンダリング層（例：ビジュアルハルフ、吸収のみ）が、敵対的訓練中に2D-3D整合性をどのように効果的に強制するか？
RQ32D画像のみに対する敵対的訓練が、3D監視付き手法の再構築を上回る3D再構築を生成できるか？
RQ4完全な3Dアノテーションが欠如している状況で、弱い3D監視を追加することで、3D再構築の品質がどの程度向上するか？

主な発見

PLATONICGANは、レンダリング画像に対する敵対的訓練のみを用いて、非構造化された2D画像コレクションから3D形状を成功裏に再構築した。
合成データおよび実世界のデータセットの両方で、ベースライン手法に対して一貫した改善を達成した。
微分可能レンダリング層の使用により、カメラポーズや画像対応関係に関する明示的監視がなくても、2D-3D整合性学習が効果的に行えるようになった。
追加の3D監視を加えることで、3D監視付き手法の性能を上回り、2D画像に対する敵対的訓練パラダイムの有効性が裏付けられた。
多様な物体クラスおよび撮影条件（異なるカメラモデルやポーズを含む）にわたり、良好な一般化性能を示した。
アブレーションスタディにより、微分可能レンダリング層が2D観測からの幾何的構造学習に不可欠であることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。