[論文レビュー] Pix2Vex: Image-to-Geometry Reconstruction using a Smooth Differentiable Renderer
Pix2Vexは、新規の滑らかな微分可能レンダラーと画像から画像への翻訳器を再構成的 adversarial networkと組み合わせることで、画像から3Dジオメトリを再構成することを学習し、最小限の監視で3D予測を実現し、ground-truth 3D modelsを必要としない。
The long-coveted task of reconstructing 3D geometry from images is still a standing problem. In this paper, we build on the power of neural networks and introduce Pix2Vex, a network trained to convert camera-captured images into 3D geometry. We present a novel differentiable renderer ($DR$) as a forward validation means during training. Our key insight is that $DR$s produce images of a particular appearance, different from typical input images. Hence, we propose adding an image-to-image translation component, converting between these rendering styles. This translation closes the training loop, while allowing to use minimal supervision only, without needing any 3D model as ground truth. Unlike state-of-the-art methods, our $DR$ is $C^\infty$ smooth and thus does not display any discontinuities at occlusions or dis-occlusions. Through our novel training scheme, our network can train on different types of images, where previous work can typically only train on images of a similar appearance to those rendered by a $DR$.
研究の動機と目的
- ground-truth 3Dモデルや照明・テクスチャの監督なしで、2D画像から3Dジオメトリを再構成することを動機づける。
- 遮蔽を通じた勾配を提供するC∞滑らかな微分可能レンダラを導入する。
- レンダリングドメインを橋渡しするために、画像-画像翻訳器で学習ループを完結させる。
- 3D supervisionなしでリコンストラクターを訓練するためのReconstructive Adversarial Network (RAN)を開発する。
- 合成データとカメラ撮影データの単一視点および複数視点再構成を示す。
提案手法
- 近隣三角形のソフトブレンディングに基づくC∞滑らかな微分可能レンダラ(SR)を提案し、遮蔽時の微分可能性を保証する。
- 入力画像から3D頂点オフセットを予測するpix2vexリコンストラクターを、ベースメッシュと頂点ごとの更新を用いて訓練する。
- SR出力と入力画像間のドメインを橋渡しする画像-画像翻訳チェーン(a2bとb2a)を用い、異なるレンダリングスタイルを持つ訓練を可能にする。
- 複数のサブ-RANパスを備えたReconstructive Adversarial Network (RAN)を用いて、翻訳コンポーネントとリコンストラクターを自己教師付ける。
- ドメイン間のサイクル整合性とL1損失を活用して学習を安定化させ、モード崩壊を回避する。
- 利用可能な場合は多視点入力で学習を処理し、単一視点再構成の戦略を提案する。
実験結果
リサーチクエスチョン
- RQ1滑らかな微分可能レンダラは遮蔽を越えた3D再構築に有用な勾配を提供できるか?
- RQ2RANフレームワークを用いて、真の3D supervisionなしに画像から3Dメッシュジオメトリを予測できるか?
- RQ3レンダラ出力と入力画像間のドメイン翻訳は最小 supervision での訓練を可能にするか?
- RQ4合成データ(ShapeNet)とカメラ撮影画像でどの程度機能するか?
- RQ5単一視点と複数視点入力の再構成品質への影響は?
主な発見
- 提案されたSRレンダラはC∞光滑で、遮蔽を横断する微分可能な勾配を可能にする。
- Pix2vexは、ベースメッシュから開始して画像から3D頂点オフセットを予測し、明示的な3D監視なしで再構成を得る。
- 2画像翻訳チェーン(a2bとb2a)はSR出力ドメインと入力ドメインを橋渡しし、学習ループを閉じる。
- RANフレームワークは、敵対的目的とサイクル整合性損失を通じてPix2Vexと翻訳者の教師なし訓練を可能にする。
- ShapeNetでの多視点訓練が妥当な再構成を生むことを実験で示し、カメラ撮影の靴からの単一視点再構成も示され、頑健性と限界が示されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。