Skip to main content
QUICK REVIEW

[論文レビュー] Unsupervised Generative 3D Shape Learning from Natural Images

Attila Szabó, Givi Meishvili|arXiv (Cornell University)|Oct 1, 2019
3D Shape Modeling and Analysis参考文献 31被引用数 51
ひとこと要約

この論文は、GANフレームワーク内で生成を3Dオブジェクトと微分可能レンダラーに分割することで、自然画像から3D形状の完全に監視なしの生成モデルを学習し、視点の分離された3D表現を実現する方法を提示します。

ABSTRACT

In this paper we present, to the best of our knowledge, the first method to learn a generative model of 3D shapes from natural images in a fully unsupervised way. For example, we do not use any ground truth 3D or 2D annotations, stereo video, and ego-motion during the training. Our approach follows the general strategy of Generative Adversarial Networks, where an image generator network learns to create image samples that are realistic enough to fool a discriminator network into believing that they are natural images. In contrast, in our approach the image generation is split into 2 stages. In the first stage a generator network outputs 3D objects. In the second, a differentiable renderer produces an image of the 3D objects from random viewpoints. The key observation is that a realistic 3D object should yield a realistic rendering from any plausible viewpoint. Thus, by randomizing the choice of the viewpoint our proposed training forces the generator network to learn an interpretable 3D representation disentangled from the viewpoint. In this work, a 3D representation consists of a triangle mesh and a texture map that is used to color the triangle surface by using the UV-mapping technique. We provide analysis of our learning approach, expose its ambiguities and show how to overcome them. Experimentally, we demonstrate that our method can learn realistic 3D shapes of faces by using only the natural images of the FFHQ dataset.

研究の動機と目的

  • 3Dまたは2Dの注釈なしで、自然画像から明示的な3D表現を教師なしで学習することを実証する。
  • 3D頂点座標に関して厳密な勾配を提供する微分可能レンダラーを開発する。
  • 教師なしの3D学習における曖昧さを分析し、それを緩和する事前条件を提案する。
  • 複数の視点からの現実的なレンダリングが、3D表現の分離を強制することを示す。

提案手法

  • StyleGANベースのジェネレータを用いて、潜在ベクトルから形状・テクスチャ・背景を含む3Dシーンを生成する。
  • ランダムな視点から画像をレンダリングするために、固定された微分可能レンダラーを使用する。
  • 自然データセットの実画像を用いたGAN設定で、識別器に対して生成器を訓練する。
  • 退化解法と背景モデリングを防ぐため、形状ピラミッド・サイズ制約などの制約を課す。
  • 境界での厳密な微分可能性を得るため、硬いレンダリングと柔らかな拡張を組み合わせた2段階プロセスでレンダリングする。
  • カメラを固定したまま物体を回転させて視点をレンダリングし、背景を切り抜いて背景のみの解を避ける。

実験結果

リサーチクエスチョン

  • RQ1生成モデルは、3D監視なしで自然画像から物体の明示的な3D幾何学を学習できるだろうか?
  • RQ2厳密な勾配を持つ微分可能レンダラーは、2D画像からの安定した教師なし3D形状学習を可能にするか?
  • RQ3教師なしの3D形状学習に inherent な曖昧さを解決するために、どのような事前条件または正則化が必要か?
  • RQ4このアプローチは、教師なし設定で3D形状と視点をどの程度分離できるか?

主な発見

  • 完全に教師なしのパイプラインが、FFHQのみを用いて現実的な3D顔を自然画像から学習する。
  • 新規の微分可能レンダラは3D頂点に対して厳密な勾配を提供し、安定した訓練を可能にする。
  • 本手法は視点分離された3D表現を示し、明確な3D形状とテクスチャ出力を提供する。
  • 形状ピラミッドとサイズ制約によりアーティファクトを低減し、背景を物体としてモデル化することを防ぐ。
  • 徹底的なアブレーションにより、ソフトレンダラが学習に不可欠である一方、拡張された視点範囲は性能を低下させる可能性がある。
  • 本アプローチは解剖学的に妥当な3D顔と、アイデンティティと視点をまたぐ滑らかな潜在空間補間を生み出す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。