QUICK REVIEW

[논문 리뷰] NeRF--: Neural Radiance Fields Without Known Camera Parameters

Zirui Wang, Shangzhe Wu|arXiv (Cornell University)|2021. 02. 14.

Advanced Vision and Imaging참고 문헌 54인용 수 256

한 줄 요약

NeRF-- 공동 최적화는 forward-facing RGB 이미지에서 COLMAP 스타일 포즈 감독 없이 카메라 매개변수와 NeRF 모델을 함께 최적화하여 새로운 시점 합성을 가능하게 하고, BLEFF를 벤치마크용으로 도입합니다.

ABSTRACT

Considering the problem of novel view synthesis (NVS) from only a set of 2D images, we simplify the training process of Neural Radiance Field (NeRF) on forward-facing scenes by removing the requirement of known or pre-computed camera parameters, including both intrinsics and 6DoF poses. To this end, we propose NeRF$--$, with three contributions: First, we show that the camera parameters can be jointly optimised as learnable parameters with NeRF training, through a photometric reconstruction; Second, to benchmark the camera parameter estimation and the quality of novel view renderings, we introduce a new dataset of path-traced synthetic scenes, termed as Blender Forward-Facing Dataset (BLEFF); Third, we conduct extensive analyses to understand the training behaviours under various camera motions, and show that in most scenarios, the joint optimisation pipeline can recover accurate camera parameters and achieve comparable novel view synthesis quality as those trained with COLMAP pre-computed camera parameters. Our code and data are available at https://nerfmm.active.vision.

연구 동기 및 목표

카메라 내부 파라미터와 포즈가 없어도 새로운 뷰 합성을 동기화하려는 동기 부여.
COLMAP 프리프로세스 단계를 제거하고 카메라 매개변수와 NeRF를 공동 최적화합니다.
엔드-투-엔드 광학 재구성으로 정확한 카메라 매개변수를 복원할 수 있음을 보인다.
카메라 추정 및 NVS 성능을 벤치마킹하기 위한 합성 BLEFF 데이터셋을 제공한다.
다양한 카메라 움직임에서의 강건성을 분석하고 COLMAP-NeRF 파이프라인과 비교한다.

제안 방법

_intrinsics_와 6DoF 포즈를 학습 가능한 파라미터로 간주하고 NeRF와 함께 광학 재구성 손실을 통해 공동 최적화한다.
내부 파라미터를 초점거리 f로 표현하고 주점은 이미지 중심 근처에 있다고 가정하며; 자세는 Rodrigues 회전(axis-angle)을 사용하는 SE(3) 파라미터로 표현한다.
현재 카메라 파라미터를 사용하여 광선 추적으로 픽셀을 렌더링하고, 광선에 따라 NeRF MLP FTheta를 질의하며 부피 렌더링으로 복사광을 적분한다.
엔드-투-엔드 구분 가능 최적화를 통해 NeRF 파라미터 Theta, 카메라 포즈 Pi, 초점거리 f를 동시에 업데이트한다.
ground-truth RGB 이미지와의 재구성 손실을 계산하기 위해 이미지당 무작위로 샘플링된 픽셀로 학습한다.

실험 결과

연구 질문

RQ1카메라 내부 파라미터와 6DoF 포즈를 회전 감독 없이 forward-facing 이미지에서 NeRF를 학습하는 동안 신뢰할 수 있게 복원할 수 있는가?
RQ2 joint 최적화가 현실적인 카메라 움직임 하에서 NVS 품질과 카메라 매개변수 정확도 측면에서 2단계 COLMAP-NeRF와 비교했을 때 어떤 차이가 있는가?
RQ3 forward-facing 장면에서 회전 및 평행 이동 섭동에 대한 결합 접근 방식의 강건성은 어떠한가?
RQ4 사전 계산된 카메라 매개변수 없이 합성 BLEFF 벤치마크 및 RealEstate10K, LLFF 같은 실제 데이터에 일반화되는가?

주요 결과

Scene	SSIM_colmap	SSIM_ours	LPIPS_colmap	LPIPS_ours	PSNR_colmap	PSNR_ours	Delta_rot(deg)	Delta_tran	Delta_focal(pixel)
Fern	0.64	0.61	0.47	0.50	22.22	21.67	1.78	0.029	153.5
Flower	0.71	0.71	0.36	0.37	25.25	25.34	4.84	0.016	13.2
Fortress	0.73	0.63	0.38	0.49	27.60	26.20	1.36	0.025	144.1
Horns	0.68	0.61	0.44	0.50	24.25	22.53	5.55	0.044	156.2
Leaves	0.52	0.53	0.47	0.47	18.81	18.88	3.90	0.016	59.0
Orchids	0.51	0.39	0.46	0.55	19.09	16.73	4.96	0.051	199.3
Room	0.87	0.84	0.40	0.44	27.77	25.84	2.77	0.030	331.8
Trex	0.74	0.72	0.41	0.44	23.52	22.48	4.67	0.036	89.3
Mean	0.68	0.63	0.42	0.47	23.52	22.48	3.73	0.031	143.3

NeRF--는 COLMAP 카메라 매개변수를 사용하는 기준 NeRF와 비교해 새로운 시점 합성 품질이 유사하다.
함께 최적화된 카메라 매개변수는 많은 조건에서 COLMAP 추정으로 수렴하여 유사한 NVS 성능을 보인다.
BLEFF 실험에서 회전 오차는 평균 약 5도, 초점 거리 오차는 평균 약 25 픽셀로 나타나고, NVS 품질은 COLMAP 기반 NeRF에 근접하다.
forward-facing 장면에서 결합 접근 방식은 COLMAP에 비해 평행 이동 섭동에 더 강력할 수 있지만 큰 회전에 덜 강할 수 있다.
트랙-투-오브젝트 또는 축소된 모션 시 어려움이 발생하는 경우 COLMAP은 실패하는 반면 NeRF--는 여전히 많은 케이스에서 의미 있는 렌더링을 제공하여 보완적인 강점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.