Skip to main content
QUICK REVIEW

[論文レビュー] ReconFusion: 3D Reconstruction with Diffusion Priors

Rundi Wu, Ben Mildenhall|arXiv (Cornell University)|Dec 5, 2023
Advanced Vision and Imaging被引用数 20
ひとこと要約

ReconFusion は、ニューボ views 合成のために訓練された拡散 Prior を用いて NeRF ベースの再構成を規制し、3–9 入力ビューからの高品質な 3D 再構成を実現し、前方視点および 360 度シーンのアーチファクトを低減します。

ABSTRACT

3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming capture process. We present ReconFusion to reconstruct real-world scenes using only a few photos. Our approach leverages a diffusion prior for novel view synthesis, trained on synthetic and multiview datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel camera poses beyond those captured by the set of input images. Our method synthesizes realistic geometry and texture in underconstrained regions while preserving the appearance of observed regions. We perform an extensive evaluation across various real-world datasets, including forward-facing and 360-degree scenes, demonstrating significant performance improvements over previous few-view NeRF reconstruction approaches.

研究の動機と目的

  • 高品質な NeRF 再構成に必要な入力ビュー数を減らすことで 3D キャプチャの民主化を推進する。
  • NeRF 最適化を正規化する拡散事前知識を提案し、新規 viewpoints での堅牢性を向上させる。
  • 制約の少ない領域で現実的な形状と質感を合成するために、既存の NeRF パイプラインと多視点条件付き拡散モデルを統合する。
  • 前方視点と制限のない 360° シーンを跨いだ一般化を評価し、最新の少視点 NeRF 手法と比較する。
  • 拡散 pri or がさまざまなキャプチャ密度でそのまま正規化子として機能することを実証する。

提案手法

  • ポーズ付き多視点入力に条件付けされた潜在拡散モデルを訓練し、現実的な新規ビューを合成する。
  • Diffusion モデルを PixelNeRF 生成の特徴マップと CLIP ベースの画像埋め込みをクロスアテンションで条件付けする。
  • 実世界および合成の多視点データセットで拡散モデルをファインチューニングして、新規視点合成の一般的な事前知識を取得する。
  • Zip-NeRF 再構成パイプラインに拡散ベースの prior を蒸留型サンプリング損失を介して組み込み、3D 最適化を現実的な新規ビューレンダリングへ導く。
  • 中間拡散ノイズレベルからターゲット画像を生成する逐次サンプリング戦略を用いて、NeRF 最適化を正規化するサンプルベースの損失を形成する。
  • Observed image とポーズの集合を条件にすることで可変数の入力ビューを有効にする;条件付けは given novel view に対して最も近い 3 視点を使用する。

実験結果

リサーチクエスチョン

  • RQ1多視点データから学習した拡散 prior は、少数ビューから plausible な幾何と外観を再構成するための NeRF 再構成を正規化できるか。
  • RQ2拡散ベースの pri or を組み込むことは、前方視点および制限のない 360° シーンでの再構成品質とアーチファクトの削減にどのように影響するか。
  • RQ3拡散 pri or は、さまざまなキャプチャ密度とデータセットに対して堅牢なドロップイン正規化子となるか。

主な発見

Method3-view PSNR6-view PSNR9-view PSNR3-view SSIM6-view SSIM9-view SSIM3-view LPIPS6-view LPIPS9-view LPIPS
Zip-NeRF*20.7727.3431.560.7740.9060.9470.3320.1800.118
DiffusioNeRF19.1224.1827.780.7100.8080.8690.4440.3440.282
FreeNeRF20.5425.6327.320.7310.8170.8430.3940.3440.332
SimpleNeRF23.8928.7529.550.8390.8960.9000.2920.2390.236
ZeroNVS*19.1122.5423.730.6750.7440.7660.4220.3740.358
Ours25.8429.9931.820.9100.9510.9610.1440.1030.092
Zip-NeRF* (LLFF)17.2320.7123.630.5740.7640.8300.3730.2210.166
RegNeRF19.0823.0924.840.5870.7600.8200.3740.2430.196
DiffusioNeRF20.1323.6024.620.6310.7750.8070.3440.2350.216
FreeNeRF19.6323.7225.120.6130.7730.8200.3470.2320.193
SimpleNeRF19.2423.0523.980.6230.7370.7620.3750.2960.286
ZeroNVS*15.9118.3918.790.3590.4490.4700.5120.4380.416
Ours21.3424.2525.210.7240.8150.8480.2030.1520.134
Zip-NeRF* (DTU)9.188.849.230.6010.5890.5920.3830.3700.364
RegNeRF19.3922.2424.620.7770.8500.8860.2030.1350.106
DiffusioNeRF16.1420.1224.310.7310.8340.8880.2210.1500.111
FreeNeRF20.4623.4825.560.8260.8700.9020.1730.1310.102
SimpleNeRF16.2520.6022.750.7510.8280.8560.2490.1900.176
ZeroNVS*16.7117.7017.920.7160.7370.7450.2230.2050.200
Ours20.7423.6224.620.8750.9040.9210.1240.1050.094
Zip-NeRF* (CO3D)14.3414.4814.970.4960.4970.5140.6520.6170.590
DiffusioNeRF15.6518.0519.690.5750.6030.6310.5970.5440.500
FreeNeRF13.2815.2017.350.4610.5230.5750.6340.5960.561
SimpleNeRF15.4018.1220.520.5530.6220.6720.6120.5410.493
SparseFusion16.7618.7719.130.5610.6000.6040.6950.6530.651
ZeroNVS*17.1319.7220.500.5810.6270.6400.5660.5150.500
Ours19.5921.8422.950.6620.7140.7360.3980.3420.318
Zip-NeRF* (mip-NeRF360)12.7713.6114.300.2710.2840.3120.7050.6630.633
DiffusioNeRF11.0512.5513.370.1890.2550.2670.7350.6920.680
FreeNeRF12.8713.3514.590.2600.2830.3190.7150.7170.695
SimpleNeRF13.2713.6715.150.2830.3120.3540.7410.7210.676
ZeroNVS*14.4415.5115.990.3160.3370.3500.6800.6630.655
Ours15.5016.9318.190.3580.4010.4320.5850.5440.511
  • ReconFusion は RealEstate10K、LLFF、DTU、CO3D、mip-NeRF 360 のデータセット全体で最新の少視点 NeRF ベースラインを上回る。
  • RealEstate10K の場合(3/6/9 視点):Our はそれぞれ 25.84/29.99/31.82 PSNR、0.910/0.951/0.961 SSIM、0.144/0.103/0.092 LPIPS。
  • LLFF の場合(3/6/9 視点):Our はそれぞれ 21.34/24.25/25.21 PSNR、0.724/0.815/0.848 SSIM、0.203/0.152/0.134 LPIPS。
  • DTU の場合(3/6/9 視点):Our はそれぞれ 20.74/23.62/24.62 PSNR、0.875/0.904/0.921 SSIM、0.124/0.105/0.094 LPIPS。
  • CO3D の場合(3/6/9 視点):Our はそれぞれ 19.59/21.84/22.95 PSNR、0.662/0.714/0.736 SSIM、0.398/0.342/0.318 LPIPS。
  • mip-NeRF 360 の場合(3/6/9 視点):Our はそれぞれ 15.50/16.93/18.19 PSNR、0.358/0.401/0.432 SSIM、0.585/0.544/0.511 LPIPS。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。