QUICK REVIEW

[논문 리뷰] Image GANs meet Differentiable Rendering for Inverse Graphics and Interpretable 3D Neural Rendering

Yu-Xuan Zhang, Wenzheng Chen|arXiv (Cornell University)|2020. 10. 18.

Generative Adversarial Networks and Image Synthesis참고 문헌 39인용 수 57

한 줄 요약

논문은 GAN-generated 다중 뷰 데이터 세트와 differentiable renderer를 사용하여 역 그래픽 네트워크를 학습한 뒤 StyleGAN 잠재 공간을 해방(disentangle)하여 제어 가능한 3D 신경 렌더러(StyleGAN-R)를 만든다.

ABSTRACT

Differentiable rendering has paved the way to training neural networks to perform "inverse graphics" tasks such as predicting 3D geometry from monocular photographs. To train high performing models, most of the current approaches rely on multi-view imagery which are not readily available in practice. Recent Generative Adversarial Networks (GANs) that synthesize images, in contrast, seem to acquire 3D knowledge implicitly during training: object viewpoints can be manipulated by simply manipulating the latent codes. However, these latent codes often lack further physical interpretation and thus GANs cannot easily be inverted to perform explicit 3D reasoning. In this paper, we aim to extract and disentangle 3D knowledge learned by generative models by utilizing differentiable renderers. Key to our approach is to exploit GANs as a multi-view data generator to train an inverse graphics network using an off-the-shelf differentiable renderer, and the trained inverse graphics network as a teacher to disentangle the GAN's latent code into interpretable 3D properties. The entire architecture is trained iteratively using cycle consistency losses. We show that our approach significantly outperforms state-of-the-art inverse graphics networks trained on existing datasets, both quantitatively and via user studies. We further showcase the disentangled GAN as a controllable 3D "neural renderer", complementing traditional graphics renderers.

연구 동기 및 목표

StyleGAN을 다중 뷰 데이터 생성기로 활용하여 단일 카메라 이미지에서의 역 그래픽을 가능하게 한다.
미분가능 렌더러 기반의 역 그래픽 네트워크를 학습하여 이미지 I_V와 마스크 M로부터 3D 기하학 및 질감을 예측한다.
역 그래픽을 이용해 StyleGAN 잠재 공간을 해방(disentangle)하여 해석 가능한 3D 표현을 얻는다.
StyleGAN을 3D 제어 가능한 신경 렌더러(StyleGAN-R)로 전환하고 형태, 질감, 배경에 대한 명시적 3D 제어를 가능하게 한다.
3D 재구성 품질의 향상을 보여주고 3D 조작 및 신경 렌더링 가능성을 시연한다.

제안 방법

내용 코드를 변화시키면서 뷰포인트 코드를 고정하고 StyleGAN으로 다중 뷰 이미지를 생성한다 w_v*.
이미지 I_V와 마스크 M에서 메쉬 S와 텍스처 T를 예측하기 위해 DIB-R를 differentiable renderer로 사용한 역 그래픽 네트워크 f_theta를 학습한다.
다중 뷰 간의 일관성 손실을 뷰 간 쌍에 적용하여 3D 속성을 감독한다.
뷰포인트, 형태, 질감, 배경을 StyleGAN의 잠재 공간 W*으로 매핑하는 매핑 네트워크를 학습하여 해방(disentanglement)을 가능하게 한다(StyleGAN-R).
주변-배경을 분리하고 해방을 촉진하기 위해 사이클 일관성 손실로 StyleGAN과 매핑 네트를 함께 미세 조정한다.
선택적으로 StyleGAN-R로 결과를 렌더링하여 전통적 differentiable renderer(DIB-R)와의 비교를 수행한다.

실험 결과

연구 질문

RQ1GAN이 3D 지식을 암묵적으로 학습하고 3D ground-truth 데이터 없이 명시적 3D 추론을 위해 역가능하게 만들 수 있는가?
RQ2DIB-R 기반 differentiable renderer를 사용하는 역 그래픽 네트워크가 GAN으로 생성된 다중 뷰 데이터에서 학습되었을 때, 일반적인 3D 데이터셋으로 학습된 모델보다 성능이 우수한가?
RQ3StyleGAN의 잠재 공간을 3D 속성(형상, 질감, 배경)에 대한 learned 매핑을 통해 해석 가능한 3D 속성으로 해방(disentangle)할 수 있는가?
RQ4해방된 GAN이 시점(viewpoint), 형태, 질감, 배경 조작이 가능한 제어 가능한 3D 신경 렌더러를 가능하게 하는가?
RQ5다중 뷰 일관성 손실이 재구성 품질에 미치는 영향은 무엇인가?

주요 결과

StyleGAN 다중 뷰 데이터 세트에서 학습된 역 그래픽은 Pascal3D로 학습된 모델에 비해 3D 재구성 품질을 크게 향상시킨다.
StyleGAN으로 생성된 데이터 세트는 훨씬 더 크고 효율적으로 주석이 달린 학습 데이터를 가능하게 하며(예: 50K StyleGAN 자동차 대 vs. ~4K Pascal3D), 주석 시간도 대폭 단축된다(분 단위 대 수백 시간).
학습된 매핑 네트워크와 미세 조정된 StyleGAN은 시점 변화 및 3D 속성 교환(형상, 질감, 배경)을 포함한 제어 가능한 3D 렌더링이 가능한 해방된 StyleGAN-R를 생성한다.
실험에서 재투사된 뷰에서 평가할 때 2D IOU 점수가 더 높았고, 사용자 연구에서도 StyleGAN 기반 재구성이 Pascal3D 베이스라인보다 선호되었다.
배럴 연구는 다중 뷰 일관성 손실이 예측의 질감 및 형상 품질을 향상시키는 데 중요함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.