QUICK REVIEW

[논문 리뷰] VoxGRAF: Fast 3D-Aware Image Synthesis with Sparse Voxel Grids

K Schwarz, Axel Sauer|arXiv (Cornell University)|2022. 06. 15.

Advanced Vision and Imaging인용 수 54

한 줄 요약

VoxGRAF는 좌표 기반 MLP를 희소 보셀 그리드와 3D CNN으로 대체하여 단일 패스, 빠르고 3D-일관된 3D 인식 이미지 합성을 가능하게 하며, 전경은 3D에서, 배경은 2D에서 다룬다.

ABSTRACT

State-of-the-art 3D-aware generative models rely on coordinate-based MLPs to parameterize 3D radiance fields. While demonstrating impressive results, querying an MLP for every sample along each ray leads to slow rendering. Therefore, existing approaches often render low-resolution feature maps and process them with an upsampling network to obtain the final image. Albeit efficient, neural rendering often entangles viewpoint and content such that changing the camera pose results in unwanted changes of geometry or appearance. Motivated by recent results in voxel-based novel view synthesis, we investigate the utility of sparse voxel grid representations for fast and 3D-consistent generative modeling in this paper. Our results demonstrate that monolithic MLPs can indeed be replaced by 3D convolutions when combining sparse voxel grids with progressive growing, free space pruning and appropriate regularization. To obtain a compact representation of the scene and allow for scaling to higher voxel resolutions, our model disentangles the foreground object (modeled in 3D) from the background (modeled in 2D). In contrast to existing approaches, our method requires only a single forward pass to generate a full 3D scene. It hence allows for efficient rendering from arbitrary viewpoints while yielding 3D consistent results with high visual fidelity.

연구 동기 및 목표

MLP 기반 방사도 필드를 넘어서는 더 빠르고 3D-일관된 3D 인식 이미지 합성을 촉진한다.
단일 순전파로 3D 장면을 생성할 수 있는 희소 보셀 그리드 생성기를 개발한다.
확장 가능한 고해상도 렌더링을 위해 전경의 3D 콘텐츠를 배경의 2D 콘텐츠와 분리한다.
높은 시각적 충실도를 달성하면서 시점 간 3D 일관성을 유지한다.
빠른 렌더링에 적합한 희소하고 선명한 표면을 촉진하기 위해 정규화 및 가지치기를 수행한다.

제안 방법

좌표 기반 MLP 방사도 필드를 희소 보셀 그리드에서 색상과 밀도를 출력하는 3D CNN으로 대체한다.
전경 생성기를 카메라 포즈에 조건화하고, 부피 렌더링을 위한 광선을 따라 샘플링하기 위해 트라이 리니어 보간을 사용한다.
3D 전경 생성기와 2D 배경 GAN을 결합하고 알파 합성을 수행하여 최종 이미지를 얻는다.
점진적 성장 및 밀도 기반 가지치를 이용해 빠른 렌더링을 가능하게 하는 희소 보셀 표현을 얻는다.
샤프한 표면을 유도하도록 정규화(깊이 분산 손실)하고, 학습 안정성을 위해 추가적인 TV 및 커버리지 정규화를 적용한다.
GAN 목표와 R1 정규화로 학습하고, 판별기를 포즈에 조건화하여 3D 선험을 강제한다.

실험 결과

연구 질문

RQ1희소 보셀 그리드 생성기가 좌표 기반 MLP에 비견되는 3D 충실도를 제공하면서도 더 빠른 단일 패스 장면 생성을 가능하게 할 수 있는가?
RQ2전경(3D)과 배경(2D)을 분리하는 것이 시점 간 3D 일관성과 시점 간 렌더링 효율을 개선하는가?
RQ3가지치기와 점진적 성장이 3D 인식 GAN에서 희소성, 메모리 사용량 및 렌더링 속도에 어떤 영향을 미치는가?
RQ4높은 충실도와 3D 일관성을 달성하기 위한 순수 신경 렌더링과 고정 배경 정교화之间의 트레이드오프는 무엇인가?

주요 결과

단일 순전파로 전체 3D 장면을 생성하여 빠른 다중 뷰 렌더링을 가능하게 한다.
깊이 분산 정규화와 함께 희소성이 급격히 증가해 보셀의 희소성이 (74%에서 95%)로 늘어나 메모리를 줄이고 렌더링 속도를 높인다.
VoxGRAF는 FFHQ(9.6)와 AFHQ(9.6)에서 경쟁력 있는 FID를 달성하고 Carla에서 6.7을 기록하며, 밀집 보셀 기반의 기준선과 여러 비신경 렌더러 방법을 능가한다.
신경 렌더링 기준선과 비교할 때, VoxGRAF은 다양한 시점에서 더 우수한 다중 뷰 일관성과 감소된 인공물들을 보인다.
렌더링 시간은 장면 생성과 뷰별 렌더링을 분리하여 새로운 시점에 대해 실시간에 준하는 성능을 가능하게 한다(예: 인용된 시나리오에서 167 FPS).
이 방법은 설계상 3D-일관성을 유지하며, 포즈 조건부 전경 생성과 포즈에 무관한 배경, 그리고 데이터 세트 편향을 다루기 위한 얕은 정제 CNN을 갖춘다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.