QUICK REVIEW

[논문 리뷰] RenderNet: A deep convolutional network for differentiable rendering from 3D shapes

Thu Nguyen-Phuoc, Chuan Li|arXiv (Cornell University)|2018. 06. 18.

Computer Graphics and Visualization Techniques인용 수 96

한 줄 요약

RenderNet은 한 장의 이미지로부터 다중 셰이더를 학습하고 역렌더링을 가능하게 하는 3D 보셀 그리드를 2D 이미지로 렌더링하는 미분가능 렌더링 CNN이다.

ABSTRACT

Traditional computer graphics rendering pipeline is designed for procedurally generating 2D quality images from 3D shapes with high performance. The non-differentiability due to discrete operations such as visibility computation makes it hard to explicitly correlate rendering parameters and the resulting image, posing a significant challenge for inverse rendering tasks. Recent work on differentiable rendering achieves differentiability either by designing surrogate gradients for non-differentiable operations or via an approximate but differentiable renderer. These methods, however, are still limited when it comes to handling occlusion, and restricted to particular rendering effects. We present RenderNet, a differentiable rendering convolutional network with a novel projection unit that can render 2D images from 3D shapes. Spatial occlusion and shading calculation are automatically encoded in the network. Our experiments show that RenderNet can successfully learn to implement different shaders, and can be used in inverse rendering tasks to estimate shape, pose, lighting and texture from a single image.

연구 동기 및 목표

학습 가능한 음영 처리로 3D 보셀 그리드를 2D 이미지로 렌더링할 수 있는 CNN 아키텍처(RenderNet)를 도입한다.
differentiable 방식으로 가시성 및 투영을 근사하는 투사 유닛을 도입한다.
여러 셰이더 스타일에 걸쳐 렌더링하고 노이즈가 있거나 해상도가 낮은 입력에 대한 견고성을 입증한다.
단일 이미지에서 형상, 자세, 조명 및 텍스처를 추정하는 역렌더링 작업의 타당성을 보인다.

제안 방법

보셀 그리드 입력을 처리하기 위해 3D CNN을 사용하고 표준 카메라 포즈에 맞추기 위해 회전/재샘플링 단계를 적용한다.
학습된 가시성을 갖는 2D 특징 맵을 생성하기 위해 3D 특징 텐서를 재구성하고 MLP(1x1 합성곱으로 구현)으로 변환하는 새로운 투사 유닛을 도입한다.
이후 2D 합성곱을 통해 픽셀별 음영 및 색상을 계산하여 엔드-투-엔드 미분가능한 렌더링을 가능하게 한다.
음영 및 텍스처 매핑 작업을 돕기 위해 법선 맵과 같은 선택적 출력을 지원한다.
엔드-투-엔드 방식으로 색상에 대해 MSE, 그레이스케일에 대해 이진 크로스 엔트로피를 사용하는 픽셀-스페이스 손실로 학습한다.
Albedo/노멀 맵과 조명을 결합하여 Phong 셰이딩과 같은 조건부 렌더링으로 확장할 수 있다.

실험 결과

연구 질문

RQ1RenderNet이 여러 셰이더 스타일에서 3D 보셀 입력을 2D 이미지로 렌더링하는 것을 학습할 수 있는가?
RQ2RenderNet이 보지 못한 객체 카테고리에 일반화하고 저하된 입력(노이즈, 다운샘플링)을 효과적으로 처리하는가?
RQ3RenderNet이 텍스처 매핑 및 노멀 맵과 통합되어 텍스처가 있는 음영 렌더링을 생성할 수 있는가?
RQ4단일 이미지에서 형상, 자세, 조명 및 텍스처를 복구하는 역렌더링 작업에 RenderNet을 적용하는 것이 가능한가?

주요 결과

RenderNet은 같은 아키텍처를 사용하여 Phong, Contour, Cartoon, Ambient Occlusion과 같은 여러 셰이더를 학습할 수 있으며, 스타일별 PSNR이 제시된다(예: RenderNet Phong 25.39, AO 22.37).
모델은 보지 못한 객체 카테고리에 일반화한다(의자에서 학습; Stanford Bunny 및 Monkey에 대한 출력 예시를 제시).
RenderNet은 노이즈가 추가된 입력 및 다운샘플링된 입력에 대해 여전히 견고하고 합리적인 렌더링을 유지한다.
아키텍처는 텍스처 매핑 네트워크와 음영 이미지용 노멀 맵 분기를 통합하여 텍스처 매핑을 지원한다.
인코더-디코더 기반의 비교 기준에 비해 RenderNet은 디테일을 더 잘 보존하고 전반적으로 모양을 일반화하며 전역 객체 기억에 의존하지 않는다.
단일 이미지 재구성에 적용되었을 때, RenderNet은 학습된 우도에 근거한 MAP-유사 최적화를 통해 자세, 조명 및 텍스처 추정을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.