[論文レビュー] ReconFusion: 3D Reconstruction with Diffusion Priors
ReconFusion は、ニューボ views 合成のために訓練された拡散 Prior を用いて NeRF ベースの再構成を規制し、3–9 入力ビューからの高品質な 3D 再構成を実現し、前方視点および 360 度シーンのアーチファクトを低減します。
3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming capture process. We present ReconFusion to reconstruct real-world scenes using only a few photos. Our approach leverages a diffusion prior for novel view synthesis, trained on synthetic and multiview datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel camera poses beyond those captured by the set of input images. Our method synthesizes realistic geometry and texture in underconstrained regions while preserving the appearance of observed regions. We perform an extensive evaluation across various real-world datasets, including forward-facing and 360-degree scenes, demonstrating significant performance improvements over previous few-view NeRF reconstruction approaches.
研究の動機と目的
- 高品質な NeRF 再構成に必要な入力ビュー数を減らすことで 3D キャプチャの民主化を推進する。
- NeRF 最適化を正規化する拡散事前知識を提案し、新規 viewpoints での堅牢性を向上させる。
- 制約の少ない領域で現実的な形状と質感を合成するために、既存の NeRF パイプラインと多視点条件付き拡散モデルを統合する。
- 前方視点と制限のない 360° シーンを跨いだ一般化を評価し、最新の少視点 NeRF 手法と比較する。
- 拡散 pri or がさまざまなキャプチャ密度でそのまま正規化子として機能することを実証する。
提案手法
- ポーズ付き多視点入力に条件付けされた潜在拡散モデルを訓練し、現実的な新規ビューを合成する。
- Diffusion モデルを PixelNeRF 生成の特徴マップと CLIP ベースの画像埋め込みをクロスアテンションで条件付けする。
- 実世界および合成の多視点データセットで拡散モデルをファインチューニングして、新規視点合成の一般的な事前知識を取得する。
- Zip-NeRF 再構成パイプラインに拡散ベースの prior を蒸留型サンプリング損失を介して組み込み、3D 最適化を現実的な新規ビューレンダリングへ導く。
- 中間拡散ノイズレベルからターゲット画像を生成する逐次サンプリング戦略を用いて、NeRF 最適化を正規化するサンプルベースの損失を形成する。
- Observed image とポーズの集合を条件にすることで可変数の入力ビューを有効にする;条件付けは given novel view に対して最も近い 3 視点を使用する。
実験結果
リサーチクエスチョン
- RQ1多視点データから学習した拡散 prior は、少数ビューから plausible な幾何と外観を再構成するための NeRF 再構成を正規化できるか。
- RQ2拡散ベースの pri or を組み込むことは、前方視点および制限のない 360° シーンでの再構成品質とアーチファクトの削減にどのように影響するか。
- RQ3拡散 pri or は、さまざまなキャプチャ密度とデータセットに対して堅牢なドロップイン正規化子となるか。
主な発見
| Method | 3-view PSNR | 6-view PSNR | 9-view PSNR | 3-view SSIM | 6-view SSIM | 9-view SSIM | 3-view LPIPS | 6-view LPIPS | 9-view LPIPS |
|---|---|---|---|---|---|---|---|---|---|
| Zip-NeRF* | 20.77 | 27.34 | 31.56 | 0.774 | 0.906 | 0.947 | 0.332 | 0.180 | 0.118 |
| DiffusioNeRF | 19.12 | 24.18 | 27.78 | 0.710 | 0.808 | 0.869 | 0.444 | 0.344 | 0.282 |
| FreeNeRF | 20.54 | 25.63 | 27.32 | 0.731 | 0.817 | 0.843 | 0.394 | 0.344 | 0.332 |
| SimpleNeRF | 23.89 | 28.75 | 29.55 | 0.839 | 0.896 | 0.900 | 0.292 | 0.239 | 0.236 |
| ZeroNVS* | 19.11 | 22.54 | 23.73 | 0.675 | 0.744 | 0.766 | 0.422 | 0.374 | 0.358 |
| Ours | 25.84 | 29.99 | 31.82 | 0.910 | 0.951 | 0.961 | 0.144 | 0.103 | 0.092 |
| Zip-NeRF* (LLFF) | 17.23 | 20.71 | 23.63 | 0.574 | 0.764 | 0.830 | 0.373 | 0.221 | 0.166 |
| RegNeRF | 19.08 | 23.09 | 24.84 | 0.587 | 0.760 | 0.820 | 0.374 | 0.243 | 0.196 |
| DiffusioNeRF | 20.13 | 23.60 | 24.62 | 0.631 | 0.775 | 0.807 | 0.344 | 0.235 | 0.216 |
| FreeNeRF | 19.63 | 23.72 | 25.12 | 0.613 | 0.773 | 0.820 | 0.347 | 0.232 | 0.193 |
| SimpleNeRF | 19.24 | 23.05 | 23.98 | 0.623 | 0.737 | 0.762 | 0.375 | 0.296 | 0.286 |
| ZeroNVS* | 15.91 | 18.39 | 18.79 | 0.359 | 0.449 | 0.470 | 0.512 | 0.438 | 0.416 |
| Ours | 21.34 | 24.25 | 25.21 | 0.724 | 0.815 | 0.848 | 0.203 | 0.152 | 0.134 |
| Zip-NeRF* (DTU) | 9.18 | 8.84 | 9.23 | 0.601 | 0.589 | 0.592 | 0.383 | 0.370 | 0.364 |
| RegNeRF | 19.39 | 22.24 | 24.62 | 0.777 | 0.850 | 0.886 | 0.203 | 0.135 | 0.106 |
| DiffusioNeRF | 16.14 | 20.12 | 24.31 | 0.731 | 0.834 | 0.888 | 0.221 | 0.150 | 0.111 |
| FreeNeRF | 20.46 | 23.48 | 25.56 | 0.826 | 0.870 | 0.902 | 0.173 | 0.131 | 0.102 |
| SimpleNeRF | 16.25 | 20.60 | 22.75 | 0.751 | 0.828 | 0.856 | 0.249 | 0.190 | 0.176 |
| ZeroNVS* | 16.71 | 17.70 | 17.92 | 0.716 | 0.737 | 0.745 | 0.223 | 0.205 | 0.200 |
| Ours | 20.74 | 23.62 | 24.62 | 0.875 | 0.904 | 0.921 | 0.124 | 0.105 | 0.094 |
| Zip-NeRF* (CO3D) | 14.34 | 14.48 | 14.97 | 0.496 | 0.497 | 0.514 | 0.652 | 0.617 | 0.590 |
| DiffusioNeRF | 15.65 | 18.05 | 19.69 | 0.575 | 0.603 | 0.631 | 0.597 | 0.544 | 0.500 |
| FreeNeRF | 13.28 | 15.20 | 17.35 | 0.461 | 0.523 | 0.575 | 0.634 | 0.596 | 0.561 |
| SimpleNeRF | 15.40 | 18.12 | 20.52 | 0.553 | 0.622 | 0.672 | 0.612 | 0.541 | 0.493 |
| SparseFusion | 16.76 | 18.77 | 19.13 | 0.561 | 0.600 | 0.604 | 0.695 | 0.653 | 0.651 |
| ZeroNVS* | 17.13 | 19.72 | 20.50 | 0.581 | 0.627 | 0.640 | 0.566 | 0.515 | 0.500 |
| Ours | 19.59 | 21.84 | 22.95 | 0.662 | 0.714 | 0.736 | 0.398 | 0.342 | 0.318 |
| Zip-NeRF* (mip-NeRF360) | 12.77 | 13.61 | 14.30 | 0.271 | 0.284 | 0.312 | 0.705 | 0.663 | 0.633 |
| DiffusioNeRF | 11.05 | 12.55 | 13.37 | 0.189 | 0.255 | 0.267 | 0.735 | 0.692 | 0.680 |
| FreeNeRF | 12.87 | 13.35 | 14.59 | 0.260 | 0.283 | 0.319 | 0.715 | 0.717 | 0.695 |
| SimpleNeRF | 13.27 | 13.67 | 15.15 | 0.283 | 0.312 | 0.354 | 0.741 | 0.721 | 0.676 |
| ZeroNVS* | 14.44 | 15.51 | 15.99 | 0.316 | 0.337 | 0.350 | 0.680 | 0.663 | 0.655 |
| Ours | 15.50 | 16.93 | 18.19 | 0.358 | 0.401 | 0.432 | 0.585 | 0.544 | 0.511 |
- ReconFusion は RealEstate10K、LLFF、DTU、CO3D、mip-NeRF 360 のデータセット全体で最新の少視点 NeRF ベースラインを上回る。
- RealEstate10K の場合(3/6/9 視点):Our はそれぞれ 25.84/29.99/31.82 PSNR、0.910/0.951/0.961 SSIM、0.144/0.103/0.092 LPIPS。
- LLFF の場合(3/6/9 視点):Our はそれぞれ 21.34/24.25/25.21 PSNR、0.724/0.815/0.848 SSIM、0.203/0.152/0.134 LPIPS。
- DTU の場合(3/6/9 視点):Our はそれぞれ 20.74/23.62/24.62 PSNR、0.875/0.904/0.921 SSIM、0.124/0.105/0.094 LPIPS。
- CO3D の場合(3/6/9 視点):Our はそれぞれ 19.59/21.84/22.95 PSNR、0.662/0.714/0.736 SSIM、0.398/0.342/0.318 LPIPS。
- mip-NeRF 360 の場合(3/6/9 視点):Our はそれぞれ 15.50/16.93/18.19 PSNR、0.358/0.401/0.432 SSIM、0.585/0.544/0.511 LPIPS。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。