Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to Predict 3D Objects with an Interpolation-based Differentiable Renderer

Wenzheng Chen, Jun Gao|arXiv (Cornell University)|2019. 08. 03.
Computer Graphics and Visualization Techniques참고 문헌 38인용 수 220
한 줄 요약

DIB-R은 전경 정점 속성 보간 및 거리 기반 백그라운드 집계를 통해 그래디언트를 가능하게 하는 해석적 보간 기반 미분 가능 래스터라이저를 도입하여 2D 감독으로 3D 기하학, 질감, 조명을 학습할 수 있게 한다.

ABSTRACT

Many machine learning models operate on images, but ignore the fact that images are 2D projections formed by 3D geometry interacting with light, in a process called rendering. Enabling ML models to understand image formation might be key for generalization. However, due to an essential rasterization step involving discrete assignment operations, rendering pipelines are non-differentiable and thus largely inaccessible to gradient-based ML techniques. In this paper, we present {\emph DIB-R}, a differentiable rendering framework which allows gradients to be analytically computed for all pixels in an image. Key to our approach is to view foreground rasterization as a weighted interpolation of local properties and background rasterization as a distance-based aggregation of global geometry. Our approach allows for accurate optimization over vertex positions, colors, normals, light directions and texture coordinates through a variety of lighting models. We showcase our approach in two ML applications: single-image 3D object prediction, and 3D textured object generation, both trained using exclusively using 2D supervision. Our project website is: https://nv-tlabs.github.io/DIB-R/

연구 동기 및 목표

  • 렌더링을 미분 가능하게 만들어 2D 이미지로부터 3D 기하학 학습을 동기 부여한다.
  • 모든 픽셀에 해석적 그래디언트를 제공하는 보간 기반 래스터라이저를 개발한다.
  • 정점 위치, 색상, 법선, 질감 좌표 및 조명에 대한 최적화를 가능하게 한다.
  • 오직 2D 감독만으로 단일 이미지에서의 3D 객체 예측과 3D 질감 객체 생성을 시연한다.

제안 방법

  • 전경 래스터라이제이션을 가장 가까운 포함 면의 정점 속성의 가중 바리센터 보간으로 정의한다.
  • 전경이 아닌 배경 래스터라이제이션을 소프트 알파 대입(A_i')이 있는 전역 기하학에 대한 거리 기반 집계로 도입한다.
  • 보간된 픽셀 값을 거친 연쇄 법칙을 통해 모든 정점 속성(위치, 색, 질감, 법선, 조명)에 대한 해석적 그래디언트를 계산한다.
  • 프래그먼트 단계에서 메쉬 색상과 조명 요인을 분리하여 다중 조명 모델(Phong, Lambertian, Spherical Harmonics)을 지원한다.
  • 2D 입력에서 기하학, 질감 맵, 조명을 예측하도록 네트워크를 학습시키되 2D 감독과 다중 시야 일관성, 그리고 현실감을 위한 적대적(adversarial) 및 지각적(perceptual) 손실을 사용한다.
  • 오직 2D 감독만으로 질감이 있는 3D 모양을 생성하는 3D GAN 설정으로 확장한다.

실험 결과

연구 질문

  • RQ1미분 가능하고 보간 기반의 래스터라이저가 래스터화된 장면에서 모든 관련 정점 속성에 대해 완전한 해석적 그래디언트를 제공할 수 있는가?
  • RQ2미분 가능 렌더러를 사용하여 단일 2D 이미지로부터 3D 기하학, 질감, 조명을 얼마나 잘 추론할 수 있는가?
  • RQ32D 감독만으로 3D 형상과 질감을 예측하는 모델을 학습시키기에 충분하며, 적대적 학습이 현실감을 더욱 향상시킬 수 있는가?
  • RQ4이 접근법을 2D 감독을 사용한 질감 있는 3D 객체의 생성 모델링으로 확장할 수 있는가?

주요 결과

  • DIB-R은 단일 이미지 3D 객체 예측에서 rasterization 기반 렌더러 중 최첨단 성능을 13 ShapeNet 카테고리에서 달성하며 N3MR 및 SoftRas-Mesh를 능가한다.
  • 기하학 및 색상(나중에 질감과 조명 포함) 예측은 대부분의 카테고리에서 3D IOU 및 F-score에 대한 정량적 향상을 보인다.
  • 질감 및 조명 예측은 3D 형상, 질감, 조명 정확도에서 베이스라인을 능가하며, 질감 L1 차이 및 조명 방향 오차에서 두드러진 이점을 보인다.
  • 적대적 손실을 포함시키면 질감 현실감이 개선되고 렌더링 출력에서 질감과 조명이 더 잘 분리된다.
  • 이 방법은 2D 감독 하에서 3D 객체 생성(3D GAN)을 지원하여 다양하고 고품질의 질감이 있는 형태를 생성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.