QUICK REVIEW

[논문 리뷰] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

Ben Mildenhall, Pratul P. Srinivasan|arXiv (Cornell University)|2020. 03. 19.

Advanced Vision and Imaging참고 문헌 51인용 수 523

한 줄 요약

본 논문은 NeRF를 소개합니다. 이 방법은 MLP를 사용하여 장면을 연속적인 5D 신경 복사장으로 표현하고, differentiable volume rendering을 통해 새로운 뷰를 합성하며, 입력 이미지의 희소한 집합으로부터 최첨단 결과를 달성합니다.

ABSTRACT

We present a method that achieves state-of-the-art results for synthesizing novel views of complex scenes by optimizing an underlying continuous volumetric scene function using a sparse set of input views. Our algorithm represents a scene using a fully-connected (non-convolutional) deep network, whose input is a single continuous 5D coordinate (spatial location $(x,y,z)$ and viewing direction $(θ, ϕ)$) and whose output is the volume density and view-dependent emitted radiance at that spatial location. We synthesize views by querying 5D coordinates along camera rays and use classic volume rendering techniques to project the output colors and densities into an image. Because volume rendering is naturally differentiable, the only input required to optimize our representation is a set of images with known camera poses. We describe how to effectively optimize neural radiance fields to render photorealistic novel views of scenes with complicated geometry and appearance, and demonstrate results that outperform prior work on neural rendering and view synthesis. View synthesis results are best viewed as videos, so we urge readers to view our supplementary video for convincing comparisons.

연구 동기 및 목표

복합 기하학과 시점 의존적 표현을 모델링할 수 있는 연속적인 5D 장면 표현(x,y,z, theta, phi)을 동기화한다.
5D 좌표를 부피 밀도와 방출 복사를 맵핑하는 완전 연결 신경망을 사용하여 장면을 표현한다.
RGB 이미지에서 neural radiance field를 최적화하기 위한 체적 렌더링에 기반한 differentiable 렌더링 파이프라인을 개발한다.
입력 위치 인코딩과 계층적 샘플링을 통해 고주파 디테일을 렌더링하고 효율성을 개선한다.

제안 방법

FΘ(x,y,z,θ,φ) → (c, σ)인 5D 함수로 장면을 표현하되, c는 RGB 색상이고 σ는 부피 밀도이다.
합성곱이 없는 MLP를 사용하여 (x,y,z)를 밀도 σ와 256차원 특징으로 처리한 다음, 시야 방향(θ,φ)과 결합하여 시야 의존 색상을 출력한다.
광선을 따라 포인트를 샘플링하고 MLP를 질의한 뒤, 구적 기반 적분을 이용한 differentiable volume rendering으로 이미지를 렌더링한다.
각 광선에 대해 stratified sampling을 적용하여 Ĉ(r) = Σi Ti(1−exp(−σηiδi))ci로 색상을 추정하도록 하며, Ti는 투과율(transmittance)로서 differentiability를 가능하게 한다.
입력 p를 더 높은 차원의 공간으로 매핑하는 위치 인코딩 γ(p)을 도입하여 고주파 콘텐츠를 포착한다.
내용이 보일 가능성이 높은 영역에 샘플을 배치하기 위해 coarse 네트워크와 fine 네트워크 두 단계의 계층적 샘플링을 도입하여 효율성을 향상한다.

실험 결과

연구 질문

RQ1한정된 RGB 뷰 세트로도 복합적 장면 기하학 및 뷰 의존적 표현을 모델링할 수 있는 연속적인 5D 신경 복사장을 모델링할 수 있는가?
RQ2신경 방사장(neural radiance field)의 differentiable volume rendering이 기존의 신경 렌더링 방법보다 더 포토리얼리스틱한 새로운 뷰를 산출하는가?
RQ3위치 인코딩과 계층적 샘플링이 NeRF에서 안정적인 최적화와 고주파 디테일 캡처를 가능하게 하는가?
RQ4NeRF를 기존의 신경 또는 복셀 기반 뷰 합성 방법과 비교했을 때 합성물은 합성에서 어떤 차이가 있는가? (synthetic 및 real-world 데이터에서)

주요 결과

NeRF는 합성 데이터와 실제 데이터 모두에서 새로운 뷰 합성에 대해 이전 연구를 능가한다.
위치 인코딩과 계층적 샘플링의 조합은 고주파 기하학 및 외형 재구성에 결정적이다.
NeRF는 최적화에 RGB 이미지와 알려진 포즈만 필요하며 3D 기하학 감독은 필요하지 않다.
기준선과 비교할 때 NeRF는 더 높은 충실도 렌더링과 더 나은 다중 시야 일관성 및 적은 아티팩트를 제공한다.
상대적으로 희소한 입력 뷰로부터도 고해상도 포토리얼리스틱 뷰를 렌더링할 수 있는 방법이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.