QUICK REVIEW

[논문 리뷰] Visual Object Networks: Image Generation with Disentangled 3D Representation

Jun-Yan Zhu, Zhoutong Zhang|arXiv (Cornell University)|2018. 12. 06.

3D Shape Modeling and Analysis참고 문헌 7인용 수 58

한 줄 요약

VON은 3D 사전으로부터 실제적인 2D 이미지를 생성하기 위해 이미지 합성을 분리된 형상, 시점, 텍스처 요인으로 분해하여 paired 2D-3D 데이터 없이도 3D 인지 편집 및 시점 변경을 가능하게 한다.

ABSTRACT

Recent progress in deep generative models has led to tremendous breakthroughs in image generation. However, while existing models can synthesize photorealistic images, they lack an understanding of our underlying 3D world. We present a new generative model, Visual Object Networks (VON), synthesizing natural images of objects with a disentangled 3D representation. Inspired by classic graphics rendering pipelines, we unravel our image formation process into three conditionally independent factors---shape, viewpoint, and texture---and present an end-to-end adversarial learning framework that jointly models 3D shapes and 2D images. Our model first learns to synthesize 3D shapes that are indistinguishable from real shapes. It then renders the object's 2.5D sketches (i.e., silhouette and depth map) from its shape under a sampled viewpoint. Finally, it learns to add realistic texture to these 2.5D sketches to generate natural images. The VON not only generates images that are more realistic than state-of-the-art 2D image synthesis methods, but also enables many 3D operations such as changing the viewpoint of a generated image, editing of shape and texture, linear interpolation in texture and shape space, and transferring appearance across different objects and viewpoints.

연구 동기 및 목표

3D 구조와 2D 이미지 합성을 분리된 생성 모델로 연결하려는 동기를 제시한다.
3D 보형(prior)과 3D 보형을 2D 스케치에 연결하는 미분 가능한 2.5D 투영을 개발한다.
2.5D 스케치에서 사진처럼 현실적인 이미지를 렌더링하는 텍스처 생성기를 훈련한다.
관점 변화, 형상/텍스처 편집, 텍스처 전이 등의 3D 조작을 가능하게 한다.
분리된 3D 표현이 2D 전용 GAN 기법보다 현실감을 향상시킴을 보여준다.

제안 방법

3D-GAN과 Wasserstein-GP를 사용하여 카테고리 특성의 3D 형상 선행(prior)을 학습하고 보셀 격자를 생성한다.
샘플링된 시점에서 투영 모듈을 통해 실루엣과 깊이로 구성된 미분 가능한 2.5D 스케치를 계산한다.
사이클 일관적 적대적 손실을 이용한 비쌍 이미지 데이터로 2.5D 스케치에서 현실적인 이미지를 렌더링하도록 텍스처 네트워크를 훈련한다.
실제 이미지에서 텍스처와 2.5D 스케치를 복원하기 위해 인코더를 사용하고, 일대다 매핑을 촉진하기 위해 사이클 일관성 및 KL 손실을 적용한다.
형상, 시점, 텍스처를 서로 연결하는 미분 가능 구성요소로 엔드투엔드 학습을 수행한다.
FID를 통해 2D GAN과 대조 평가를 수행하고 인간 선호도 연구를 수행한다.

실험 결과

연구 질문

RQ1분리된 3D 표현이 2D GAN 대비 생성 이미지의 현실감을 향상시킬 수 있는가?
RQ2관점 및 텍스처/형상 편집을 가능하게 하는 3D 인식 파이프라인이 실제 이미지 유사 데이터에서 2D 전용 합성보다 우수한가?
RQ3비쌍 2D 및 3D 데이터를 효과적으로 활용해 공동 생성 모델을 학습할 수 있는가?
RQ4형상, 시점, 텍스처가 독립적으로 제어될 때 어떤 3D 조작이 가능해지는가?

주요 결과

VON은 자동차 및 의자 데이터셋에서 DCGAN, LSGAN, 및 WGAN-GP 기반의 기준보다 더 낮은 Fréchet Inception Distance (FID)를 달성한다.
대다수의 비교에서 인간은 VON이 생성한 이미지를 기준 2D GAN보다 선호했다.
VON은 고품질 3D 형상을 제공하고 관점 변화, 형상/텍스처 편집, 텍스처 전이와 같은 3D 인지 작업을 용이하게 한다.
3D 형상 선행을 사용하면 이전 3D-GAN 접근법에 비해 샘플 현실성이 개선된다.
Distance function (DF) 표현은 형상에 대해 보셀 기반 표현보다 경쟁력 있거나 우수한 FID를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.