QUICK REVIEW

[논문 리뷰] GRAF: Generative Radiance Fields for 3D-Aware Image Synthesis

Katja Schwarz, Yiyi Liao|arXiv (Cornell University)|2020. 07. 05.

Generative Adversarial Networks and Image Synthesis참고 문헌 81인용 수 322

한 줄 요약

GRAF는 조건부 신경 방사장을 학습하여 포즈가 지정되지 않은 2D 이미지로부터 고해상도이며 3D 일관된 이미지를 합성하기 위해 다중 스케일 패치 기반 판별기를 사용하고, 형태, 외관 및 시점을 제어할 수 있게 한다.

ABSTRACT

While 2D generative adversarial networks have enabled high-resolution image synthesis, they largely lack an understanding of the 3D world and the image formation process. Thus, they do not provide precise control over camera viewpoint or object pose. To address this problem, several recent approaches leverage intermediate voxel-based representations in combination with differentiable rendering. However, existing methods either produce low image resolution or fall short in disentangling camera and scene properties, e.g., the object identity may vary with the viewpoint. In this paper, we propose a generative model for radiance fields which have recently proven successful for novel view synthesis of a single scene. In contrast to voxel-based representations, radiance fields are not confined to a coarse discretization of the 3D space, yet allow for disentangling camera and scene properties while degrading gracefully in the presence of reconstruction ambiguity. By introducing a multi-scale patch-based discriminator, we demonstrate synthesis of high-resolution images while training our model from unposed 2D images alone. We systematically analyze our approach on several challenging synthetic and real-world datasets. Our experiments reveal that radiance fields are a powerful representation for generative image synthesis, leading to 3D consistent models that render with high fidelity.

연구 동기 및 목표

2D GAN에서 3D 이해 부족을 해소하고 카메라 시점 및 객체 포즈에 대해 명시적 제어를 가능하게 한다.
포즈가 없는 2D 이미지로부터 학습될 수 있어 새로운 3D 일관된 신(scene)을 합성할 수 있는 생성 방사장 모델을 개발한다.
형상(shape), 외관(appearance), 시점(viewpoint)을 분리해 이들 요소를 독립적으로 조작할 수 있도록 한다.
다중 스케일 패치 기반 판별기를 도입하여 고해상도 이미지 합성을 달성한다.
3D 일관성과 이미지 충실성을 보여주기 위해 합성 및 실제 데이터 세트에서 평가한다.

제안 방법

장면을 조건부 방사장 g_theta로 표현하여 3D 위치 x, 시점 방향 d, 형태 코드 z_s, 외관 코드 z_a를 색상 c와 밀도 sigma에 매핑한다.
x와 d에 대해 위치 인코딩을 사용하고 밀도(sigma)와 색상(c)을 각각 인코더 헤드로 분리한다; 색상 헤드는 시점 의존적 외관을 위해 d와 z_a에 조건을 둔다.
레이를 따라 알파 합성으로 미분 가능 부피 렌더링을 통해 2D 이미지를 렌더링한다.
생성기를 감독하기 위해 다양한 스케일에서 임의의 KxK 패치를 샘플링하는 패치 기반 판별기를 사용하는 GAN 목표로 학습한다.
방사장을 잠재 코드 z_s(형상) 및 z_a(외관)에 조건을 부여하여 기하학과 질감의 분리를 가능하게 하고 제어 가능한 조작을 가능하게 한다.
학습 중에 랜덤 카메라 포즈 xi와 랜덤 2D 패치 패턴 nu를 샘플링하여 시야 다양성과 해상도에 구애받지 않는 감독을 촉진한다.

실험 결과

연구 질문

RQ1포즈가 없는 2D 이미지로부터 학습된 생성 방사장이 높은 해상도에서 고충실도이면서 3D 일관된 이미지를 생성할 수 있는가?
RQ2잠재 코드를 통해 형태와 외관을 분리하는 것이 제어 가능한 3D 인식 생성과 신뢰할 수 있는 시점 일관성으로 이어지는가?
RQ3안정적이고 고해상도인 3D 인식 이미지 합성을 위해 다중 스케일 패치 기반 판별기가 필수적인가?
RQ4이미지 충실도와 3D 일관성 측면에서 GRAF가 보셀 기반의 3D 인식 방법과 2D GAN과 어떻게 비교되는가?

주요 결과

GRAF는 포즈가 없는 이미지로부터 고충실도, 고해상도 3D 인식 이미지 합성을 달성하며, 보셀 기반 기준선보다 3D 일관성이 향상된다.
조건부 방사장이 형상(z_s)과 외관(z_a)을 성공적으로 분리하여 추론 시 기하학과 질감을 독립적으로 조작 가능하게 한다.
다중 스케일 패치 기반 판별기가 안정적인 GAN 학습과 데이터 세트와 해상도 전반에 걸친 고품질 출력을 위한 결정적 요소이다.
실험은 변위가 큰 데이터셋에서 platonic GAN 및 HoloGAN과 같은 기준선에 비해 FID/KID 및 3D 재구성 지표가 우수함을 보인다.
이 방법은 더 높은 해상도로 일반화되며 학습된 방사장이 임의의 시점에서 렌더링되고 다중 시점 일관성을 유지한다는 증거가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.