Skip to main content
QUICK REVIEW

[논문 리뷰] ReconFusion: 3D Reconstruction with Diffusion Priors

Rundi Wu, Ben Mildenhall|arXiv (Cornell University)|2023. 12. 05.
Advanced Vision and Imaging인용 수 20
한 줄 요약

ReconFusion은 novel view 합성을 위해 학습된 diffusion prior를 사용하여 NeRF 기반 재구성을 규제하고, 입력 뷰가 3–9개인 경우에도 고품질 3D 재구성을 가능하게 하며 전방향 및 360도 장면 전반에서 형상과 텍스처의 인공물을 줄입니다.

ABSTRACT

3D reconstruction methods such as Neural Radiance Fields (NeRFs) excel at rendering photorealistic novel views of complex scenes. However, recovering a high-quality NeRF typically requires tens to hundreds of input images, resulting in a time-consuming capture process. We present ReconFusion to reconstruct real-world scenes using only a few photos. Our approach leverages a diffusion prior for novel view synthesis, trained on synthetic and multiview datasets, which regularizes a NeRF-based 3D reconstruction pipeline at novel camera poses beyond those captured by the set of input images. Our method synthesizes realistic geometry and texture in underconstrained regions while preserving the appearance of observed regions. We perform an extensive evaluation across various real-world datasets, including forward-facing and 360-degree scenes, demonstrating significant performance improvements over previous few-view NeRF reconstruction approaches.

연구 동기 및 목표

  • 고품질 NeRF 재구성에 필요한 입력 뷰 수를 줄여 3D 캡처를 민주화하고자 함.
  • novel viewpoint에서의 강건성을 개선하기 위한 NeRF 최적화의 diffusion-prior 기반 규제기 제안.
  • 제약이 적은 영역에서 타당한 기하학 및 텍스처를 합성하기 위해 기존 NeRF 파이프라인과 다중 뷰 조건 diffusion 모델을 통합.
  • 전방향 및 무한대 360° 장면에 걸친 일반화 성능 평가 및 최첨단 few-view NeRF 방법과의 비교.
  • 다양한 촬영 밀도에서 diffusion prior가 드롭인(regulator) 규제로 작동함을 시연합니다.

제안 방법

  • 포즈가 있는 다중 뷰 입력에 조건부 latent diffusion 모델을 학습하여 그럴듯한 새로운 시점을 합성한다.
  • diffusion 모델을 PixelNeRF로 생성된 특징 맵과 Cross-attention을 통해 CLIP 기반 이미지 임베딩으로 조건화한다.
  • 실제 및 합성 다중 뷰 데이터셋에서 diffusion 모델을 미세조정하여 novel view 합성에 대한 일반 priors를 얻는다.
  • Zip-NeRF 재구성 파이프라인에 확산 기반 priors를 distillation-like sampling 손실로 도입하여 3D 최적화를 현실적인 novel-view 렌더링으로 유도한다.
  • 중간 diffusion 노이즈 레벨에서 목표 이미지를 생성하는 progressive sampling 전략을 사용해 NeRF 최적화를 규제하는 샘플 기반 손실을 형성한다.
  • 관찰된 이미지와 포즈 세트를 조건으로 가변 개수의 입력 뷰를 허용한다; 조건화는 주어진 novel view에 대해 가장 가까운 3개 뷰를 사용한다.

실험 결과

연구 질문

  • RQ1다중 뷰 데이터에서 학습된 diffusion prior가 NeRF 재구성을 규제하여 몇 개의 뷰로도 그럴듯한 기하학 및 외관을 만들어낼 수 있는가?
  • RQ2diffusion 기반 priors의 통합이 전방향 및 무한대 360° 장면에서 재구성 품질과 인공물 감소에 어떤 영향을 미치는가?
  • RQ3diffusion priors가 서로 다른 촬영 밀도와 데이터셋에서 강력한 드롭인 규제자인가?

주요 결과

Method3-view PSNR6-view PSNR9-view PSNR3-view SSIM6-view SSIM9-view SSIM3-view LPIPS6-view LPIPS9-view LPIPS
Zip-NeRF*20.7727.3431.560.7740.9060.9470.3320.1800.118
DiffusioNeRF19.1224.1827.780.7100.8080.8690.4440.3440.282
FreeNeRF20.5425.6327.320.7310.8170.8430.3940.3440.332
SimpleNeRF23.8928.7529.550.8390.8960.9000.2920.2390.236
ZeroNVS*19.1122.5423.730.6750.7440.7660.4220.3740.358
Ours25.8429.9931.820.9100.9510.9610.1440.1030.092
Zip-NeRF* (LLFF)17.2320.7123.630.5740.7640.8300.3730.2210.166
RegNeRF19.0823.0924.840.5870.7600.8200.3740.2430.196
DiffusioNeRF20.1323.6024.620.6310.7750.8070.3440.2350.216
FreeNeRF19.6323.7225.120.6130.7730.8200.3470.2320.193
SimpleNeRF19.2423.0523.980.6230.7370.7620.3750.2960.286
ZeroNVS*15.9118.3918.790.3590.4490.4700.5120.4380.416
Ours21.3424.2525.210.7240.8150.8480.2030.1520.134
Zip-NeRF* (DTU)9.188.849.230.6010.5890.5920.3830.3700.364
RegNeRF19.3922.2424.620.7770.8500.8860.2030.1350.106
DiffusioNeRF16.1420.1224.310.7310.8340.8880.2210.1500.111
FreeNeRF20.4623.4825.560.8260.8700.9020.1730.1310.102
SimpleNeRF16.2520.6022.750.7510.8280.8560.2490.1900.176
ZeroNVS*16.7117.7017.920.7160.7370.7450.2230.2050.200
Ours20.7423.6224.620.8750.9040.9210.1240.1050.094
Zip-NeRF* (CO3D)14.3414.4814.970.4960.4970.5140.6520.6170.590
DiffusioNeRF15.6518.0519.690.5750.6030.6310.5970.5440.500
FreeNeRF13.2815.2017.350.4610.5230.5750.6340.5960.561
SimpleNeRF15.4018.1220.520.5530.6220.6720.6120.5410.493
SparseFusion16.7618.7719.130.5610.6000.6040.6950.6530.651
ZeroNVS*17.1319.7220.500.5810.6270.6400.5660.5150.500
Ours19.5921.8422.950.6620.7140.7360.3980.3420.318
Zip-NeRF* (mip-NeRF360)12.7713.6114.300.2710.2840.3120.7050.6630.633
DiffusioNeRF11.0512.5513.370.1890.2550.2670.7350.6920.680
FreeNeRF12.8713.3514.590.2600.2830.3190.7150.7170.695
SimpleNeRF13.2713.6715.150.2830.3120.3540.7410.7210.676
ZeroNVS*14.4415.5115.990.3160.3370.3500.6800.6630.655
Ours15.5016.9318.190.3580.4010.4320.5850.5440.511
  • ReconFusion은 RealEstate10K, LLFF, DTU, CO3D, mip-NeRF 360 데이터셋에서 최첨단 few-view NeRF 벤치마크를 능가합니다.
  • RealEstate10K(3/6/9 뷰)에서 각각 25.84/29.99/31.82 PSNR, 0.910/0.951/0.961 SSIM, 0.144/0.103/0.092 LPIPS를 달성합니다.
  • LLFF(3/6/9 뷰)에서 각각 21.34/24.25/25.21 PSNR, 0.724/0.815/0.848 SSIM, 0.203/0.152/0.134 LPIPS를 달성합니다.
  • DTU(3/6/9 뷰)에서 각각 20.74/23.62/24.62 PSNR, 0.875/0.904/0.921 SSIM, 0.124/0.105/0.094 LPIPS를 달성합니다.
  • CO3D(3/6/9 뷰)에서 각각 19.59/21.84/22.95 PSNR, 0.662/0.714/0.736 SSIM, 0.398/0.342/0.318 LPIPS를 달성합니다.
  • mip-NeRF 360(3/6/9 뷰)에서 각각 15.50/16.93/18.19 PSNR, 0.358/0.401/0.432 SSIM, 0.585/0.544/0.511 LPIPS를 달성합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.