QUICK REVIEW

[論文レビュー] 3D Object Reconstruction from a Single Depth View with Adversarial Learning

Bo Yang, Hongkai Wen|arXiv (Cornell University)|Aug 26, 2017

Advanced Vision and Imaging参考文献 42被引用数 27

ひとこと要約

本稿では、1枚の深度画像から完全な3Dオブジェクト形状を再構築するための生成的敵対ネットワーク、3D-RecGANを提案する。条件付きGANとオートエノードの組み合わせにより、分類ラベルやマルチビュー入力なしに、64³解像度で最先端の性能を達成し、カテゴリ特異的およびクロスカテゴリ再構築の両面で既存手法を上回る。

ABSTRACT

In this paper, we propose a novel 3D-RecGAN approach, which reconstructs the complete 3D structure of a given object from a single arbitrary depth view using generative adversarial networks. Unlike the existing work which typically requires multiple views of the same object or class labels to recover the full 3D geometry, the proposed 3D-RecGAN only takes the voxel grid representation of a depth view of the object as input, and is able to generate the complete 3D occupancy grid by filling in the occluded/missing regions. The key idea is to combine the generative capabilities of autoencoders and the conditional Generative Adversarial Networks (GAN) framework, to infer accurate and fine-grained 3D structures of objects in high-dimensional voxel space. Extensive experiments on large synthetic datasets show that the proposed 3D-RecGAN significantly outperforms the state of the art in single view 3D object reconstruction, and is able to reconstruct unseen types of objects. Our code and data are available at: https://github.com/Yang7879/3D-RecGAN.

研究の動機と目的

遮蔽によって本質的に曖昧な1つの部分的な深度画像から完全な3Dオブジェクトジオメトリを再構築する課題に対処すること。
ポisson再構築や低解像度のディープラーニングモデルといった従来手法の限界を克服し、細部の構造を回復できること。
トレーニング時および推論時において分類ラベルを必要とせず、オブジェクトカテゴリをまたいで汎用的に動作する3D再構築フレームワークを開発すること。
識別器からの潜在分布を用いることで、高次元の3Dボクセル空間におけるGANのトレーニングを安定化させること。
エンドツーエンドでトレーニング可能な生成モデルを用いて、1枚の2.5D深度入力から高解像度（64³）の3D形状補完を実現すること。

提案手法

モデルは3D畳み込みオートエノードを用い、1枚の深度画像を一般3Dジオメトリを表す低次元の潜在ベクトルに符号化する。
デコーダーは潜在ベクトルから完全な3D占有グリッドを再構築し、粗い3D形状を生成する。
条件付き識別器は、実際の3D形状と生成された形状を識別するために訓練され、実際および偽の形状の潜在分布を用いることでトレーニングを安定化させる。
敵対的学習により、オートエノードの出力を改善し、再構築形状に細部の構造的特徴を追加する。
フレームワークはエンドツーエンドでトレーニング可能であり、オブジェクト分類ラベルやマルチビュー入力なしに、深度画像のボクセルグリッド表現に対して直接処理を行う。
識別器に二値ラベルではなく潜在分布を用いることで、高次元3D空間におけるトレーニング安定性が向上し、GANの崩壊を防止できる。

実験結果

リサーチクエスチョン

RQ11枚の深度画像から、細部まで再構築された高解像度3D形状を再構築できるか？
RQ2オートエノードと条件付きGANを組み合わせることで、単独のオートエノードやGANと比較して、3D形状補完がどのように向上するか？
RQ3トレーニング時に分類ラベルを必要とせず、未学習のオブジェクトカテゴリに一般化できるか？
RQ4識別器に潜在分布を用いることで、3D GANにおけるトレーニング安定性と再構築品質が向上するか？
RQ5トレーニング時に見なかったオブジェクトタイプを含むテストセットにおけるクロスカテゴリ再構築において、モデルはどの程度の性能を示すか？

主な発見

3D-RecGANは、チェアカテゴリにおいて平均交差率（IoU）0.661を達成し、Varleyらの最先端手法（IoU 0.564）を大きく上回った。
複数カテゴリ（チェア、スツール、トイレ）のテストにおいて、3D-RecGANはIoU 0.554を達成し、Varleyら（0.493）および3D-RecAE（0.514）を上回った。
クロスカテゴリ再構築では、モデルが1つのカテゴリで学習し、5つの他のカテゴリでテストした場合、平均IoUは0.356（グループ1）、0.369（グループ2）、0.351（グループ3）を記録し、優れた一般化性能を示した。
複数カテゴリテストにおいて、3D-RecGANはCE損失が0.117と低く、Varleyらの0.125よりも形状の忠実度が優れていた。
識別器に潜在分布を用いることで、トレーニングがより安定し、二値ラベル方式に比べて3D空間におけるGAN崩壊を防止できた。
3D-RecGANは、入力深度画像で部分的に遮蔽されていても、チェアやスツールの脚やサポート部などの細部構造を成功裏に再構築できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。