[論文レビュー] Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer
DIB-R は前景頂点属性補間と距離ベース背景集約を介して微分可能なラスタライザーを解析的に導入し、2D-supervised 学習を可能にする。これにより、3D ジオメトリ、テクスチャ、およびライティングの勾配を得ることができる。
Many machine learning models operate on images, but ignore the fact that images are 2D projections formed by 3D geometry interacting with light, in a process called rendering. Enabling ML models to understand image formation might be key for generalization. However, due to an essential rasterization step involving discrete assignment operations, rendering pipelines are non-differentiable and thus largely inaccessible to gradient-based ML techniques. In this paper, we present {\emph DIB-R}, a differentiable rendering framework which allows gradients to be analytically computed for all pixels in an image. Key to our approach is to view foreground rasterization as a weighted interpolation of local properties and background rasterization as a distance-based aggregation of global geometry. Our approach allows for accurate optimization over vertex positions, colors, normals, light directions and texture coordinates through a variety of lighting models. We showcase our approach in two ML applications: single-image 3D object prediction, and 3D textured object generation, both trained using exclusively using 2D supervision. Our project website is: https://nv-tlabs.github.io/DIB-R/
研究の動機と目的
- Rendering を微分可能にして 2D 画像から 3D ジオメトリを学習させる動機付け
- 全ピクセルに分析的勾配を提供する補間ベースのラスタライザーを開発
- 頂点位置、カラー、法線、テクスチャ座標、ライティングの最適化を可能にする
- 2D の指導と多視点整合性、対向・知覚損失を用いて、単一画像からの 3D オブジェクト予測と 3D テクスチャ付きオブジェクト生成を実証
提案手法
- 前景ラスタライゼーションを、最も近い包含面の頂点属性の重み付きバリセントリック補間として定義する
- 背景ラスタライゼーションを、グローバルジオメトリに対する距離ベースの集約として、ソフトアルファ割り当て(A_i')を用いて導入する
- 補間されたピクセル値を経由する連鎖則によって、頂点属性(位置、カラー、テクスチャ、法線、ライティング)の分析的勾配を全て計算する
- フラグメント段階でメッシュカラーとライティング要因を分離することで、複数のライティングモデル(Phong、Lambertian、Spherical Harmonics)をサポートする
- 2D 入力からのジオメトリ、テクスチャマップ、およびライティングを、2D 指導とマルチビュー整合性、さらに現実味のための対向・知覚損失を用いて訓練する
- 2D 指導のみに基づく 3D GAN 設定へ拡張し、テクスチャ付きの 3D 形状を生成する
実験結果
リサーチクエスチョン
- RQ1差分可能で補間ベースのラスタライザーは、ラスタライズされたシーンのすべての関連頂点属性について完全な分析的勾配を提供できるか。
- RQ2差分可能なレンダラーを用いて、単一の 2D 画像から 3D ジオメトリ、テクスチャ、ライティングをどれだけうまく推定できるか。
- RQ32D 指導だけで 3D 形状とテクスチャを予測するモデルを訓練するのは十分か、対向訓練は現実味をさらに高められるか。
- RQ42D 指導のもとで、テクスチャ付きの 3D オブジェクトの生成モデル(3D GAN)へ拡張できるか。
主な発見
| カテゴリ | N3MR IOU | N3MR F-score | SoftRas-Mesh IOU | SoftRas-Mesh F-score | Ours IOU | Ours F-score |
|---|---|---|---|---|---|---|
| Airplane | 58.5 | 80.6 | 58.4 | 71.9 | 57.0 | 75.7 |
| Bench | 45.7 | 55.3 | 44.9 | 49.9 | 49.8 | 55.6 |
| Dresser | 74.1 | 46.3 | 73.6 | 41.5 | 76.3 | 52.2 |
| Car | 71.3 | 53.3 | 77.1 | 51.1 | 78.8 | 53.6 |
| Chair | 41.4 | 39.1 | 49.7 | 40.8 | 52.7 | 44.7 |
| Display | 55.5 | 43.8 | 54.7 | 41.7 | 58.8 | 46.4 |
| Lamp | 36.7 | 46.4 | 39.1 | 39.1 | 40.3 | 45.9 |
| Speaker | 67.4 | 35.0 | 68.4 | 29.8 | 72.6 | 38.8 |
| Rifle | 55.7 | 83.6 | 62.0 | 82.8 | 56.1 | 82.0 |
| Sofa | 60.2 | 39.2 | 63.6 | 39.3 | 67.7 | 43.1 |
| Table | 39.1 | 46.9 | 45.3 | 37.1 | 50.8 | 51.5 |
| Phone | 76.2 | 74.2 | 75.5 | 68.6 | 74.3 | 73.3 |
| Vessel | 59.4 | 66.9 | 58.9 | 55.4 | 60.9 | 63.2 |
- DIB-R は ShapeNet カテゴリ13における単一画像の 3D オブジェクト予測で、ラスタライゼーションベースのレンダラの中で最先端の結果を達成し、N3MR および SoftRas-Mesh を上回った。
- 幾何とカラー(後にテクスチャと光の予測を含む)を用いた予測は、3D IOU および F-score の定量的改善を、ほとんどのカテゴリで示した。
- テクスチャとライティングの予測は、3D 形状、テクスチャ、およびライティングの精度でベースラインを上回り、特にテクスチャの L1 差異とライティング方向誤差で顕著な向上を示した。
- 対向損失を組み込むことで、テクスチャの現実味が向上し、レンダリング出力におけるテクスチャとライティングの分離に役立つ。
- この手法は 2D 指導の下で 3D オブジェクト生成(3D GAN)をサポートし、多様で高品質なテクスチャ付き形状を生み出す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。