QUICK REVIEW

[논문 리뷰] ShaRF: Shape-conditioned Radiance Fields from a Single View

Konstantinos Rematas, Ricardo Martin-Brualla|arXiv (Cornell University)|2021. 02. 17.

Computer Graphics and Visualization Techniques참고 문헌 56인용 수 43

한 줄 요약

논문은 ShaRF를 제안한다. 두 단계로 이루어진 형태-외관 분리 신경 렌더링 프레임워크로, 보셀화된 형태 골격을 사용해 복사 광 선(field)을 조건화하여 단일 이미지 객체 재구성 및 새로운 뷰 합성을 가능하게 하며, 실제 렌더링 및 실사진에 일반화한다.

ABSTRACT

We present a method for estimating neural scenes representations of objects given only a single image. The core of our method is the estimation of a geometric scaffold for the object and its use as a guide for the reconstruction of the underlying radiance field. Our formulation is based on a generative process that first maps a latent code to a voxelized shape, and then renders it to an image, with the object appearance being controlled by a second latent code. During inference, we optimize both the latent codes and the networks to fit a test image of a new object. The explicit disentanglement of shape and appearance allows our model to be fine-tuned given a single image. We can then render new views in a geometrically consistent manner and they represent faithfully the input object. Additionally, our method is able to generalize to images outside of the training domain (more realistic renderings and even real photographs). Finally, the inferred geometric scaffold is itself an accurate estimate of the object's 3D shape. We demonstrate in several experiments the effectiveness of our approach in both synthetic and real images.

연구 동기 및 목표

단일 이미지에서 객체의 신경 씬 표현을 추정하기 위해 광선 필드를 재구성하도록 가이드하는 기하학적 보셀 골격을 구축한다.
형태와 외관을 분리하여 도메인 간의 일반화를 개선하고 로버스트한 미세 조정이 가능하도록 한다.
최소 입력으로 기하학적으로 일관된 신규 시점을 렌더링하고 정확한 3D 형태를 회복한다.
훈련 도메인을 넘어 더 실사에 가까운 렌더링과 실제 사진에 일반화하는 것을 시연한다.
테스트 이미지에서 잠재 코드를 공동으로 정제하고 네트워크를 최적화하는 최적화 기반 추론 절차를 제공한다.

제안 방법

형상 네트워크 G가 잠재 코드로부터 객체 점유를 나타내는 3D 보셀 격자 V를 매핑한다.
외관 네트워크 F는 점유 αp와 외관 잠재 코드 φ를 통해 V로 조건화된 복사 광 선을 추정하여 3D 점 p와 시야 방향 d에 대해 색상 c와 밀도 σ를 생성한다.
방사 필드 렌더링은 NeRF에서와 같이 부피 렌더링을 따라 광선 추적 및 누적을 통해 픽셀을 합성한다.
ShapeNet 객체를 잠재 코드 θ(형상)와 φ(외관)로 사용하고 손실로는 점유를 통한 보셀 BCE, 대칭성 손실, 두 뷰에서의 객체 실루엣으로의 투영 손실이 있다.
추론은 테스트 이미지에 맞추어 θ, φ를 최적화하고 G와 F를 다듬는 2단계 프로세스로 이루어지며: 1단계는 F를 고정한 상태에서 θ, G, φ를 최적화하고; 2단계는 θ와 G를 고정한 상태에서 φ와 F를 최적화하여 실제 이미지에 대한 미세 조정이 가능하다.

실험 결과

연구 질문

RQ1단일 뷰 이미지에서 학습된 잠재적 형태 조건의 방사 필드가 보이지 않는 객체의 정확한 신규 시점을 렌더링할 수 있는가?
RQ2형태와 외관을 분리하는 것이 실사에 가까운 렌더링 및 실제 사진에 대한 일반화를 개선하는가?
RQ3단일 테스트 이미지에서 형태와 외관 네트워크를 공동으로 추정하고 미세 조정하는 것이 잠재 코드만 최적화하는 것과 비교하여 어떤 이점을 가지는가?
RQ4보셀화된 기하 골격이 표면 중심의 외관 합성을 가이드하여 렌더링 품질을 향상시키는가?
RQ5ShaRF 변형들이 합성 및 실제 데이터 세트 전반에서 기존의 단일 이미지 NeRF 기반 방법과 비교하여 어떤 성능을 보이는가?

주요 결과

Variant	PSNR (code-only)	SSIM (code-only)	PSNR (code+network)	SSIM (code+network)
V1. Conditional NeRF	22.12	0.90	22.05	0.91
V2. ShapeFromNR	23.37	0.92	23.31	0.92
V3. ShapeFromMask	22.94	0.91	22.98	0.91
V4. ShapeFromGT	25.59	0.94	25.65	0.94

형상 골격을 갖춘 ShaRF 변형은 ShapeNet-SRN 의 의자와 자동차에서 코드 전용 기반보다 PSNR/SSIM이 우수하며, V2는 의자에서 PSNR 23.31–23.37, SSIM 0.92를 달성한다.
ShapeNet-Realistic에서 형태-골격 변형(V3, V4)이 코드 전용 변형보다 우수하며, V4는 PSNR 25.65, SSIM 0.94를 달성한다.
Pix3D에서 ShapeFromMask(세분화에서 얻은 형태 골격)과 코드+네트워크 최적화는 강력한 렌더링 품질과 pixelNeRF에 대한 경쟁력 있는 결과를 보여준다.
ShapeFromNR 및 ShapeFromMask 변형은 Conditional NeRF만 사용하는 것보다 더 실사에 가까운 렌더링 및 실제 이미지에 대한 일반화가 더 잘 된다.
두 단계 추론 절차(먼저 형태와 그것의 네트워크를 정제하고, 그 다음 외관과 렌더러를 정제하는)가 재구성 품질을 크게 향상시키며, 특히 비훈련 도메인 입력에 대해 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.