QUICK REVIEW

[논문 리뷰] SurfNet: Generating 3D shape surfaces using deep residual networks

Ayan Sinha, Asim Unmesh|arXiv (Cornell University)|2017. 03. 12.

3D Shape Modeling and Analysis참고 문헌 33인용 수 27

한 줄 요약

SurfNet는 일관된 기하학적 이미지 표현을 사용하여 2D 이미지 또는 매개변수화 표현에서 직접 3D 형태 표면을 생성하는 딥 리서지드 네트워크를 제안한다. 이 방법은 형태 간의 현실적인 보간, 미리 보지 못한 시야에서의 재구성, 그리고 학습된 내부 표현을 통한 대응 레이블 개선을 가능하게 하며, 계산 비용이 높은 볼록 기반 접근 방식에 비해 효율성과 표면 충실도에서 뛰어나다.

ABSTRACT

3D shape models are naturally parameterized using vertices and faces, \ie, composed of polygons forming a surface. However, current 3D learning paradigms for predictive and generative tasks using convolutional neural networks focus on a voxelized representation of the object. Lifting convolution operators from the traditional 2D to 3D results in high computational overhead with little additional benefit as most of the geometry information is contained on the surface boundary. Here we study the problem of directly generating the 3D shape surface of rigid and non-rigid shapes using deep convolutional neural networks. We develop a procedure to create consistent `geometry images' representing the shape surface of a category of 3D objects. We then use this consistent representation for category-specific shape surface generation from a parametric representation or an image by developing novel extensions of deep residual networks for the task of geometry image generation. Our experiments indicate that our network learns a meaningful representation of shape surfaces allowing it to interpolate between shape orientations and poses, invent new shape surfaces and reconstruct 3D shape surfaces from previously unseen images.

연구 동기 및 목표

2D 이미지 또는 매개변수 코드에서 직접 3D 형태 표면을 생성하는 딥 러닝 프레임워크를 개발하여 계산 비용이 높은 3D 볼록 표현을 피하는 것.
형태 카테고리 전반에 걸쳐 매개변수화 컷과 구형 매핑에 대해 불변인 일관되고 강력한 기하학적 이미지 표현을 만들기 위한 것.
2D 입력에서 3D 표면 좌표(x, y, z)를 종료형으로 생성하기 위해 딥 리서지드 네트워크를 확장하여 자세를 암묵적으로 추정하고 고주파 표면 세부 정보를 유지하는 것.
다른 자세와 형태 간의 형태 표면 보간, 특히 미리 보지 못한 중간 구성까지 가능하게 하는 것.
신경망의 내부 표현을 활용해 노이즈가 있는 메쉬 대응 관계를 보정하여 학습 데이터 품질을 향상시키는 것.

제안 방법

형태 카테고리 전반에 걸쳐 3D 메쉬와 기본 구형 매개변수화 간의 대규모 대응 문제를 해결하여 일관된 기하학적 이미지를 구성함으로써, 형태 카테고리 전반에 걸쳐 위상적·기하학적 일관성을 확보한다.
기하학적 이미지를 사용하여 입력 이미지 또는 일항 인코딩된 형태 코드에서 3D 표면 좌표(x, y, z)를 인코딩하는 데 사용되는 딥 리서지드 U-Net 아키텍처를 사용한다.
잔차 매핑을 학습하여 고주파 표면 세부 정보를 생성함으로써 재구성 정확도와 일반화 능력을 향상시킨다.
입력 데이터는 강체 물체(예: 자동차, 항공기)에 대해 RGB 이미지를, 비강체 물체(예: 손)에 대해 깊이 이미지를 포함하며, 생성 과정에서 시점 추정이 암묵적으로 이루어진다.
예측된 기하학적 이미지를 원래 메쉬 공간으로 다시 투영하여 학습된 잠재 표현을 활용해 노이즈가 있는 메쉬 대응 관계를 개선한다.
일항 인코딩된 벡터가 형태 정체성을 제어하며, 잠재 공간에서 형태 벡터 간 선형 보간을 통해 현실적인 중간 표면 형태를 생성할 수 있다.

실험 결과

연구 질문

RQ1딥 신경망은 볼록화 없이 2D 이미지 또는 매개변수 코드에서 현실적인 3D 형태 표면을 생성할 수 있는가?
RQ2형태 카테고리 전반에 걸쳐 신뢰할 수 있는 학습과 생성을 가능하게 하기 위해 일관된 기하학적 이미지 표현을 어떻게 구성할 수 있는가?
RQ3딥 리서지드 네트워크는 자세와 정체성 간의 보간을 지원하는 의미 있는 분리된 3D 형태 표면 표현을 어느 정도 학습할 수 있는가?
RQ4신경망의 내부 표현을 사용하여 학습 세트의 노이즈가 있거나 부정확한 메쉬 대응 관계를 보정할 수 있는가?
RQ5모델은 훈련 중에 볼 수 없었던 3D 표면 자세를 재구성하고 타당한 새로운 형태를 생성하는 데 일반화되는가?

주요 결과

네트워크는 훈련 중에 볼 수 없었던 RGB 및 깊이 이미지에서 현실적인 3D 형태 표면을 성공적으로 생성하여 강체 및 비강체 카테고리 모두에서 견고한 재구성을 보여준다.
일항 인코딩된 형태 벡터 간의 선형 보간은 다양한 자동차 및 항공기 모델 간의 부드럽고 현실적인 형태 변화를 생성하며, 중간 차체 스타일까지 포함한다.
모델은 형태와 자세를 분리된 표현으로 학습하여 자세각 방향과 형태 정체성에 동시에 보간이 가능하다.
예측된 기하학적 이미지가 기저 메쉬의 노이즈를 감소시키고 기울기의 매끄러움을 향상시켜 원래 대응 맵보다 대응 품질을 향상시킨다.
시각적 비교와 대응 품질 지표를 통해 최소한의 잡음으로 고정밀도 표면 재구성을 달성하였다.
모델은 훈련 중에 볼 수 없었던 새로운 형태와 자세로 일반화되며, 의미 있고 일반화 가능한 형태 표현을 포착하고 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.