QUICK REVIEW

[논문 리뷰] 3D-Aware Scene Manipulation via Inverse Graphics

Shunyu Yao, Tzu Ming Harry Hsu|arXiv (Cornell University)|2018. 08. 28.

Computer Graphics and Visualization Techniques참고 문헌 10인용 수 44

한 줄 요약

본 논문은 장면의 의미, 기하, 외형을 분리 학습하는 인코더-디코더 프레임워크인 3D-SDN을 제시하며, differentiable shape renderer와 texture generator를 통해 3D‑인식 편집을 가능하게 한다. Virtual KITTI와 Cityscapes에서 2D 기준 모델들보다 우수한 3D‑인식 편집을 보여주며, 이미지 편집 벤치마크와 구성요소 분석(ablations)를 제공합니다.

ABSTRACT

We aim to obtain an interpretable, expressive, and disentangled scene representation that contains comprehensive structural and textural information for each object. Previous scene representations learned by neural networks are often uninterpretable, limited to a single object, or lacking 3D knowledge. In this work, we propose 3D scene de-rendering networks (3D-SDN) to address the above issues by integrating disentangled representations for semantics, geometry, and appearance into a deep generative model. Our scene encoder performs inverse graphics, translating a scene into a structured object-wise representation. Our decoder has two components: a differentiable shape renderer and a neural texture generator. The disentanglement of semantics, geometry, and appearance supports 3D-aware scene manipulation, e.g., rotating and moving objects freely while keeping the consistent shape and texture, and changing the object appearance without affecting its shape. Experiments demonstrate that our editing scheme based on 3D-SDN is superior to its 2D counterpart.

연구 동기 및 목표

장면 의미, 객체 기하/자세, 외형을 인코딩하는 해석 가능하고 표현적이며 해리된(분리된) 장면 표현을 얻는 것을 목표로 한다.
모양과 질감을 보존하면서 객체를 이동/회전시키는 등의 3D 인식 장면 조작을 가능하게 한다.
기하와 질감을 충실하게 재구성하기 위해 미분 가능 렌더러를 활용한다.
객체별 편집을 지원하고 2D 기준 모델과의 평가를 가능하게 하는 인코더-디코더 프레임워크를 제공한다.

제안 방법

세 가지 가지의 인코더(의미론, 기하, 텍스처)를 사용하여 이미지를 구조화된 객체 단위 표현으로 디레더링한다.
각 객체에 대해 3D 메시, 자세(pose), Free-Form Deformation (FFD)을 추론하기 위해 미분 가능 형태 렌더러를 적용한다.
인스턴스 단위 텍스처 코드와 조건부 GAN 기반 텍스처 렌더러를 사용하는 텍스처 디-레더러를 적용하여 이미지를 재구성한다.
3D 포즈/노멀 맵을 텍스처 분기에 공급하여 포즈의 모호한 텍스처 인코딩을 방지함으로써 기하와 텍스처를 분리한다.
3D 속성 예측 손실, 재투영 손실, GAN 기반 텍스처 손실, 특징 매칭 및 지각 손실의 조합으로 학습한다.

실험 결과

연구 질문

RQ1인코더-디코더 프레임워크가 장면의 해리된 의미론적, 기하학적 및 텍스처 표현을 학습할 수 있는가?
RQ2미분 가능 3D 렌더러를 도입하면 텍스처를 보존하면서 객체 자세/위치를 변경하는 등의 정확한 3D 인식 편집이 가능해지는가?
RQ3명시적 3D 감독 및 재투영 일관성이 3D 속성 추정 및 렌더링 충실도에 어떤 기여를 하는가?
RQ4순수하게 2D 편집 접근법과 비교하여 3D 인식 편집은 지각적 품질과 현실성 측면에서 어떻게 비교되는가?

주요 결과

의미, 기하, 외형을 분리하여 텍스처를 변경하지 않고 포즈/위치를 바꿀 수 있고, 반대로 텍스처를 유지한 채 포즈를 바꾸는 등의 편집이 가능하다.
Virtual KITTI와 Cityscapes에서 3D 인식 편집은 지각 지표와 인간 판단에서 2D 기준선보다 우수하다.
분해 실험은 여러 CAD 메쉬를 Free-Form Deformation (FFD)과 함께 도입하고 재투영 손실 및 적절한 쿼터니언/간격 제약을 적용하면 3D 속성 정확도와 실루엣 재투영이 향상됨을 보여준다.
제시된 벤치마크에서 3D-SDN 편집이 2D 기준선에 비해 LPIPS 점수가 낮고 사람의 선호도가 높음을 수치적으로 나타낸다.
이 방법은 인스턴스, 포즈, 노멀 맵 등 일관된 3D 표현을 제공하여 견고한 3D 조작과 가려짐 추론을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.