QUICK REVIEW

[논문 리뷰] Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer

Wenzheng Chen, Jun Gao|arXiv (Cornell University)|2019. 08. 03.

Computer Graphics and Visualization Techniques참고 문헌 38인용 수 220

한 줄 요약

DIB-R은 전경 정점 속성 보간 및 거리 기반 백그라운드 집계를 통해 그래디언트를 가능하게 하는 해석적 보간 기반 미분 가능 래스터라이저를 도입하여 2D 감독으로 3D 기하학, 질감, 조명을 학습할 수 있게 한다.

ABSTRACT

Many machine learning models operate on images, but ignore the fact that images are 2D projections formed by 3D geometry interacting with light, in a process called rendering. Enabling ML models to understand image formation might be key for generalization. However, due to an essential rasterization step involving discrete assignment operations, rendering pipelines are non-differentiable and thus largely inaccessible to gradient-based ML techniques. In this paper, we present {\emph DIB-R}, a differentiable rendering framework which allows gradients to be analytically computed for all pixels in an image. Key to our approach is to view foreground rasterization as a weighted interpolation of local properties and background rasterization as a distance-based aggregation of global geometry. Our approach allows for accurate optimization over vertex positions, colors, normals, light directions and texture coordinates through a variety of lighting models. We showcase our approach in two ML applications: single-image 3D object prediction, and 3D textured object generation, both trained using exclusively using 2D supervision. Our project website is: https://nv-tlabs.github.io/DIB-R/

연구 동기 및 목표

렌더링을 미분 가능하게 만들어 2D 이미지로부터 3D 기하학 학습을 동기 부여한다.
모든 픽셀에 해석적 그래디언트를 제공하는 보간 기반 래스터라이저를 개발한다.
정점 위치, 색상, 법선, 질감 좌표 및 조명에 대한 최적화를 가능하게 한다.
오직 2D 감독만으로 단일 이미지에서의 3D 객체 예측과 3D 질감 객체 생성을 시연한다.

제안 방법

전경 래스터라이제이션을 가장 가까운 포함 면의 정점 속성의 가중 바리센터 보간으로 정의한다.
전경이 아닌 배경 래스터라이제이션을 소프트 알파 대입(A_i')이 있는 전역 기하학에 대한 거리 기반 집계로 도입한다.
보간된 픽셀 값을 거친 연쇄 법칙을 통해 모든 정점 속성(위치, 색, 질감, 법선, 조명)에 대한 해석적 그래디언트를 계산한다.
프래그먼트 단계에서 메쉬 색상과 조명 요인을 분리하여 다중 조명 모델(Phong, Lambertian, Spherical Harmonics)을 지원한다.
2D 입력에서 기하학, 질감 맵, 조명을 예측하도록 네트워크를 학습시키되 2D 감독과 다중 시야 일관성, 그리고 현실감을 위한 적대적(adversarial) 및 지각적(perceptual) 손실을 사용한다.
오직 2D 감독만으로 질감이 있는 3D 모양을 생성하는 3D GAN 설정으로 확장한다.

실험 결과

연구 질문

RQ1미분 가능하고 보간 기반의 래스터라이저가 래스터화된 장면에서 모든 관련 정점 속성에 대해 완전한 해석적 그래디언트를 제공할 수 있는가?
RQ2미분 가능 렌더러를 사용하여 단일 2D 이미지로부터 3D 기하학, 질감, 조명을 얼마나 잘 추론할 수 있는가?
RQ32D 감독만으로 3D 형상과 질감을 예측하는 모델을 학습시키기에 충분하며, 적대적 학습이 현실감을 더욱 향상시킬 수 있는가?
RQ4이 접근법을 2D 감독을 사용한 질감 있는 3D 객체의 생성 모델링으로 확장할 수 있는가?

주요 결과

DIB-R은 단일 이미지 3D 객체 예측에서 rasterization 기반 렌더러 중 최첨단 성능을 13 ShapeNet 카테고리에서 달성하며 N3MR 및 SoftRas-Mesh를 능가한다.
기하학 및 색상(나중에 질감과 조명 포함) 예측은 대부분의 카테고리에서 3D IOU 및 F-score에 대한 정량적 향상을 보인다.
질감 및 조명 예측은 3D 형상, 질감, 조명 정확도에서 베이스라인을 능가하며, 질감 L1 차이 및 조명 방향 오차에서 두드러진 이점을 보인다.
적대적 손실을 포함시키면 질감 현실감이 개선되고 렌더링 출력에서 질감과 조명이 더 잘 분리된다.
이 방법은 2D 감독 하에서 3D 객체 생성(3D GAN)을 지원하여 다양하고 고품질의 질감이 있는 형태를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.