QUICK REVIEW

[논문 리뷰] Unsupervised Generative 3D Shape Learning from Natural Images

Attila Szabó, Givi Meishvili|arXiv (Cornell University)|2019. 10. 01.

3D Shape Modeling and Analysis참고 문헌 31인용 수 51

한 줄 요약

본 논문은 GAN 프레임워크 내에서 생성 과정을 3D 객체와 미분 가능한 렌더러로 분리하여 자연 이미지로부터 3D 형태의 생성 모델을 완전히 무감독으로 학습하는 방법을 제시하고, 시점 분리된 3D 표현을 가능하게 한다.

ABSTRACT

In this paper we present, to the best of our knowledge, the first method to learn a generative model of 3D shapes from natural images in a fully unsupervised way. For example, we do not use any ground truth 3D or 2D annotations, stereo video, and ego-motion during the training. Our approach follows the general strategy of Generative Adversarial Networks, where an image generator network learns to create image samples that are realistic enough to fool a discriminator network into believing that they are natural images. In contrast, in our approach the image generation is split into 2 stages. In the first stage a generator network outputs 3D objects. In the second, a differentiable renderer produces an image of the 3D objects from random viewpoints. The key observation is that a realistic 3D object should yield a realistic rendering from any plausible viewpoint. Thus, by randomizing the choice of the viewpoint our proposed training forces the generator network to learn an interpretable 3D representation disentangled from the viewpoint. In this work, a 3D representation consists of a triangle mesh and a texture map that is used to color the triangle surface by using the UV-mapping technique. We provide analysis of our learning approach, expose its ambiguities and show how to overcome them. Experimentally, we demonstrate that our method can learn realistic 3D shapes of faces by using only the natural images of the FFHQ dataset.

연구 동기 및 목표

3D 또는 2D 주석 없이 자연 이미지로부터 명시적 3D 표현의 무감독 학습을 입증한다.
3D 정점 좌표에 대해 정확한 기울기를 제공하는 미분 가능한 렌더러를 개발한다.
무감독 3D 학습의 모호성을 분석하고 이를 완화하기 위한 프라이어(우선 가정)를 제안한다.
여러 관점에서의 현실적인 렌더링이 해제된(disentangled) 3D 표현을 강제하는지 보여준다.

제안 방법

StyleGAN 기반 생성기를 통해 잠재 벡터로부터 3D 장면(형상, 텍스처, 배경)을 생성한다.
고정된 미분 가능한 렌더러를 사용하여 임의의 시점에서 이미지를 렌더링한다.
자연 데이터셋의 실제 이미지를 사용한 GAN 설정에서 판별기와 함께 생성기를 학습시킨다.
퇴화된 해나 배경 모델링을 방지하기 위해 형태 피라미드, 크기 제약 등의 제약을 부과한다.
두 단계 렌더링 프로세스를 렌더링한다: 경계에서 정확한 미분 가능성을 얻기 위해 날카로운 렌더링과 소프트 확장을 혼합하는 방식.
카메라를 고정한 채 객체를 회전시켜 시점을 렌더링하고 배경을 잘라내어 배경만인 단순 해를 피한다.

실험 결과

연구 질문

RQ1생성 모델이 3D 감독 없이 자연 이미지로부터 객체의 명시적 3D 기하학을 학습할 수 있는가?
RQ2정확한 기울기를 가진 미분 가능한 렌더러가 2D 이미지로부터의 안정적인 무감독 3D 형상 학습을 가능하게 하는가?
RQ3무감독 3D 형상 학습에 내재된 모호성을 해결하기 위해 어떤 프라이어 또는 규제가 필요한가?
RQ4무감독 설정에서 이 접근법이 3D 형상을 시점으로부터 어느 정도까지 해제(disentangle)할 수 있는가?

주요 결과

완전한 무감독 파이프라인이 FFHQ에서 자연 이미지만으로 현실적인 3D 얼굴을 학습한다.
새로운 미분 가능한 렌더러가 3D 정점에 대해 정확한 기울기를 제공하여 안정적인 학습을 가능하게 한다.
본 방법은 시점 분리된 3D 표현을 보여주며 명확한 3D 형상과 텍스처 출력을 제공한다.
형태 피라미드와 크기 제약이 인공물을 줄이고 모델이 배경을 객체로 모델링하는 것을 방지한다.
철저한 제거실험은 소프트 렌더러가 학습에 결정적임을 보여주고, 확장된 시점 범위가 성능을 저하할 수 있음을 시사한다.
이 방법은 해부학적으로 그럴듯한 3D 얼굴과 정체성과 시점 간의 매끄러운 잠재 공간 보간을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.