[논문 리뷰] Deferred Neural Rendering: Image Synthesis using Neural Textures
논문은 Neural Textures와 Deferred Neural Renderer를 도입하여 불완전한 3D 재구성으로부터 사진실사 이미지를 합성하고, 3D에 내장된 엔드-투-엔드 학습 파이프라인 내에서 새로운 시점 합성 및 편집을 가능하게 한다.
The modern computer graphics pipeline can synthesize images at remarkable visual quality; however, it requires well-defined, high-quality 3D content as input. In this work, we explore the use of imperfect 3D content, for instance, obtained from photo-metric reconstructions with noisy and incomplete surface geometry, while still aiming to produce photo-realistic (re-)renderings. To address this challenging problem, we introduce Deferred Neural Rendering, a new paradigm for image synthesis that combines the traditional graphics pipeline with learnable components. Specifically, we propose Neural Textures, which are learned feature maps that are trained as part of the scene capture process. Similar to traditional textures, neural textures are stored as maps on top of 3D mesh proxies; however, the high-dimensional feature maps contain significantly more information, which can be interpreted by our new deferred neural rendering pipeline. Both neural textures and deferred neural renderer are trained end-to-end, enabling us to synthesize photo-realistic images even when the original 3D content was imperfect. In contrast to traditional, black-box 2D generative neural networks, our 3D representation gives us explicit control over the generated output, and allows for a wide range of application domains. For instance, we can synthesize temporally-consistent video re-renderings of recorded 3D scenes as our representation is inherently embedded in 3D space. This way, neural textures can be utilized to coherently re-render or manipulate existing video content in both static and dynamic environments at real-time rates. We show the effectiveness of our approach in several experiments on novel view synthesis, scene editing, and facial reenactment, and compare to state-of-the-art approaches that leverage the standard graphics pipeline as well as conventional generative neural networks.
연구 동기 및 목표
- 소음이 있는 노이즈, 구멍, 과평활화된 등 불완전한 3D 재구성에서 사진 실사 렌더링의 동기를 부여한다.
- 3D 프록시(대리체)에 부착된 학습된 2D 맵으로서의 neural textures를 제안하여 풍부한 외관 정보를 저장한다.
- 신경 텍스처를 해석하여 최종 이미지를 생성하는 미분가능하고 엔드-투-엔드 학습 가능한 렌더러를 도입한다.
- 새로운 시점 합성, 정적 장면 편집 및 동적 장면 재연 같은 응용을 가능하게 한다.
- 순수 2D 생성 방법과 비교하여 출력의 시간적 일관성과 3D 공간 제어를 시연한다.
제안 방법
- 학습된 Neural textures를 3D 메쉬 프록시에서 고차원 특징 맵으로 저장하여 더 풍부한 외관 인코딩을 가능하게 한다.
- 샘플링 시 축소와 확대의 균형을 맞추기 위해 Neural Texture Hierarchies(다단계 텍스처)를 구성한다.
- 신경 텍스처의 미분가능한 양선형 샘플링을 사용하여 화면 공간 특징 맵을 생성한다.
- 특징 맵(및 선택적 시야 입력)을 해석하여 최종 이미지를 합성하는 Deferred Neural Renderer(U-Net 스타일 인코더-디코더)를 적용한다.
- 렌더러를 구에 대해 방향을 회전시키도록 첫 9개 특징 채널에 구면조화(구면 조화함수)를 보강하여 시야 의존 효과를 통합한다.
- 신경 텍스처와 렌더러를 현상 이미지의 잘라낸 부분에서의 L1 광학적 손실로 엔드-투-엔드로 학습시킨다.
- 학습을 위한 uv 맵을 사전 계산하고, 신경 텍스처를 사용하여 프록시 기하를 래스터라이즈하여 렌더러 입력을 생성한다.
실험 결과
연구 질문
- RQ1실제 데이터에서 학습된 neural textures가 불완전한 3D 재구성에서 사진처럼 사실적인 재렌더링을 가능하게 할 수 있는가?
- RQ2신경 텍스처와 지연 신경 렌더러의 엔드-투-엔드 학습이 시간적으로 일관된 새로운 시점을 제공하고 장면 편집을 가능하게 하는가?
- RQ3품질과 효율성 측면에서 신경 텍스처가 전통적인 IBR 및 이미지 기반 렌더링 접근법과 어떻게 비교되는가?
- RQ4텍스처 해상도, 계층 구조, 프록시 기하학 품질이 렌더링 정확도에 미치는 영향은 무엇인가?
- RQ5이 접근법이 정적 새로운 시점 합성은 물론 동적/얼굴 재연 시나리오도 다룰 수 있는가?
주요 결과
- Neural Textures와 Deferred Neural Renderer는 불완전한 기하학으로부터 실시간에 가까운 속도로 사진 실사 재렌더링을 가능하게 한다.
- 계층적 신경 텍스처는 품질을 향상시켜 더 높은 해상도에서 단일 텍스처보다 낮은 MSE를 달성한다(예: 계층 구조로 2048×2048에서 0.38 MSE).
- 단일 신경 텍스처는 256×256 해상도 근처에서 최적점을 달성할 수 있으며; 계층 구조는 더 높은 해상도에서 결과를 더 향상시킨다.
- Pix2Pix 기반 변환과 비교할 때, 이 방법은 더 선명한 새로운 시점 렌더링과 더 나은 시간적 일관성을 제공한다.
- 전통적인 이미지 기반 렌더링 기준선과 비교했을 때, 제안하는 방법은 테스트 시점에 수백 개의 고해상도 이미지를 저장할 필요가 없고 컴팩트한 신경 텍스처(512×512×16)와 16M 매개변수 렌더러를 사용한다.
- 이 접근법은 기하학 프록시 해상도 감소에 대해 여전히 강인하며 사진실사 출력을 생성할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.