QUICK REVIEW

[논문 리뷰] NerfDiff: Single-image View Synthesis with NeRF-guided Distillation from 3D-aware Diffusion

Jiatao Gu, Alex Trevithick|arXiv (Cornell University)|2023. 02. 20.

Advanced Vision and Imaging인용 수 37

한 줄 요약

NerfDiff는 카메라 공간 트리플레인 NeRF를 3D 인지 기반 확산 모델과 함께 학습시키고 NeRF-가이드 증류를 사용하여 단일 이미지로 다중 뷰 일관된 새로운 뷰 합성을 미세 조정합니다.

ABSTRACT

Novel view synthesis from a single image requires inferring occluded regions of objects and scenes whilst simultaneously maintaining semantic and physical consistency with the input. Existing approaches condition neural radiance fields (NeRF) on local image features, projecting points to the input image plane, and aggregating 2D features to perform volume rendering. However, under severe occlusion, this projection fails to resolve uncertainty, resulting in blurry renderings that lack details. In this work, we propose NerfDiff, which addresses this issue by distilling the knowledge of a 3D-aware conditional diffusion model (CDM) into NeRF through synthesizing and refining a set of virtual views at test time. We further propose a novel NeRF-guided distillation algorithm that simultaneously generates 3D consistent virtual views from the CDM samples, and finetunes the NeRF based on the improved virtual views. Our approach significantly outperforms existing NeRF-based and geometry-free approaches on challenging datasets, including ShapeNet, ABO, and Clevr3D.

연구 동기 및 목표

단일 이미지 하에서 시야 차단에 의해 발생하는 의미 및 물리적 일관성을 보존하는 새로운 시각(노출) 뷰 합성을 동기화한다.
단일 입력 이미지에 조건화된 빠른 카메라 정렬 트리플레인 NeRF 표현을 제안한다.
가려진 영역 뒤의 불확실성을 해소하기 위해 3D 인식 조건부 확산 모델을 통합한다.
NeRF-가이드 증류(NGD)를 도입하여 테스트 시 NeRF 렌더링을 공동으로 다듬고 다중 뷰 확산을 안내한다.
ShapeNet, ABO, Clevr3D 데이터셋에서 최첨단 성능을 보여준다.

제안 방법

단일 입력 이미지를 조건으로 하는 카메라 공간 트리플레인 NeRF를 UNet 인코더가 이미지 정렬된 트리플레인을 생성하도록 도입한다.
목표 시점 뷰를 향해 NeRF 렌더링을 다듬는 3D 인식 조건부 확산 모델(CDM)을 구축한다.
다중 뷰 데이터에서 NeRF와 CDM을 공동으로 학습시켜 입력 이미지에서 NeRF를 테스트 시점에 초기화할 수 있도록 한다.
CDM으로 가상 뷰를 생성하고 NeRF-가이드 증류(NGD)를 사용하여 CDM 지식을 NeRF로 역전 distill링하여 추론 시 미세 튜닝한다.
NeRF 증류와 확산 샘플링을 교대로 최적화하는 스킴을 사용하여 보강된 3D 일관성을 달성한다.

실험 결과

연구 질문

RQ1단일 이미지로 어떻게 고충실도와 다중 뷰 일관성이 있는 새로운 뷰를 생성할 수 있는가?
RQ23D 인식 확산 모델이 단일 이미지를 조건으로 할 때 가려진 영역의 불확실성을 해결하기 위한 신뢰할 수 있는 시각 priors를 제공할 수 있는가?
RQ3NGD를 통한 테스트 시점 미세 조정이 기존의 단일 이미지 NeRF나 지오메트리-프리 방법보다 3D 일관성과 지각 품질이 더 나은가?
RQ4표준 벤치마크에서 트리플레인 NeRF + CDM 프레임워크의 속도와 정확도 간의 트레이드오프는 어떠한가?

주요 결과

NerfDiff는 ShapeNet Cars/Chairs 및 ABO에서 기하학적 자유(neutral) 및 단일 뷰 NeRF 기반선 대비 최첨단 PSNR 및 SSIM을 달성한다.
3D 인식 CDM을 도입하면 특히 가려진 영역 뒤에서 지각 품질(LPIPS)과 FID가 크게 향상된다.
NGD 미세 조정은 순진한 CDM 증류나 SDS 기반 방법보다 더 선명한 렌더링과 더 좋은 FID/LPIPS를 제공한다.
더 큰 CDM/NeRF 모델 크기(NerfDiff-L)는 지각 품질을 향상시키며 NGD는 FID와 LPIPS에서 주목할 만한 이점을 제공한다.
비교 분석에서 50개의 가상 뷰가 효율성과 성능 사이의 균형에서 좋은 선택임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.