QUICK REVIEW

[論文レビュー] Improved Adversarial Systems for 3D Object Generation and Reconstruction

Edward Smith, David Meger|arXiv (Cornell University)|Jul 29, 2017

Generative Adversarial Networks and Image Synthesis参考文献 28被引用数 63

ひとこと要約

3D-IWGANと3D-VAE-IWGANを導入し、Wasserstein距離と勾配ペナルティを用いて複数カテゴリにわたる3Dオブジェクト形状を生成・再構成し、IKEAデータセット再構成で最先端を達成。

ABSTRACT

This paper describes a new approach for training generative adversarial networks (GAN) to understand the detailed 3D shape of objects. While GANs have been used in this domain previously, they are notoriously hard to train, especially for the complex joint data distribution over 3D objects of many categories and orientations. Our method extends previous work by employing the Wasserstein distance normalized with gradient penalization as a training objective. This enables improved generation from the joint object shape distribution. Our system can also reconstruct 3D shape from 2D images and perform shape completion from occluded 2.5D range scans. We achieve notable quantitative improvements in comparison to existing baselines

研究の動機と目的

カテゴリラベルなしで複雑で多カテゴリの3D形状分布のロバストな学習を動機づける。
複数の視点にわたる3Dオブジェクト分布のGAN訓練安定性を改善する。
単一の2D画像および遮蔽された2.5D深度スキャンからの3D再構成を可能にする。
3D生成とVAE-GANハイブリッドにWasserstein GAN with gradient penaltyを統合する。

提案手法

複数のオブジェクトクラスと方向にまたがる共同3D形状分布を学習するために3D-IWGANを使用。
勾配ペナルティ付きWasserstein距離（IWGAN）を適用してGAN訓練を安定化させる（λ=10）ウェイトクリッピングなし。
訓練スケジュールを修正: 判別器の更新はバッチごと; 生成器の更新は5バッチごと。
3D-IWGANとVAEを組み合わせた3D-VAE-IWGANで、エンコーダ、生成器、判別器の更新を同期して画像条件付き3D再構成を可能にする。
エンコーダ/デコーダのアーキテクチャ: 5層CNNエンコーダ; VAE側の潜在表現は400次元; 生成器/判別器は32^3の出力ボクセル。
同じ3D-VAE-IWGANフレームワークを用いて単一視点深度スキャンからの3D再構成に拡張。

実験結果

リサーチクエスチョン

RQ1カテゴリラベルの監視なしで複数のオブジェクトカテゴリと向きを学習できる単一の結合3D形状ネットワークは存在するか？
RQ2勾配ペナルティ付きWasserstein距離は複雑な3D形状分布の安定性と収束を改善するか？
RQ3VAE-GANハイブリッド（3D-VAE-IWGAN）は2D入力で条件付けされた場合、画像からの最先端の3D再構成を達成できるか？
RQ4部分的に遮蔽されたまたは深度のみの観測からモデルは3D形状を完成させることができるか？

主な発見

方法	Bed	Bookcase	Chair	Desk	Sofa	Table	平均
3D-VAE-IWGAN (ours) jointly trained	65.7	44.2	49.3	50.6	68.0	52.2	55.0
3D-VAE-IWGAN (ours) separately trained	77.7	51.8	56.2	49.8	82.0	52.6	61.7

3D-IWGANはModelNet10の10クラスと12方向で安定訓練を実現し、潜在空間の補間を滑らかに可能にした。
3D-VAE-IWGANはIKEAデータセットで最先端の再構成を達成し、mean average precisionは61.7%（個別訓練）と55.0%（共同訓練）。
結合モデルは教師なし設定で別個訓練モデルと比較して競争力があり、共有表現学習の利点を示す。
このシステムは単一のRGB画像および深度マップから3D形状を再構成でき、Kinect由来データを含む、現実的なセンサリングシナリオへの適用性を示す。
判別器の損失は収束を追跡し、IWGAN目的と提案されたアーキテクチャ変更の下で安定した訓練を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。