QUICK REVIEW

[논문 리뷰] PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization

Shunsuke Saito, Zeng Huang|arXiv (Cornell University)|2019. 05. 13.

3D Shape Modeling and Analysis참고 문헌 75인용 수 147

한 줄 요약

본 논문은 단일 이미지로도 고해상도 의복 인간을 의복 텍스처를 포함하여 픽셀 정렬 임의 함수(PIFu)로 디지털화하고 다중 시점 뷰를 통합할 수 있는 완전 합성 컨볼루션 네트워크를 제시합니다.

ABSTRACT

We introduce Pixel-aligned Implicit Function (PIFu), a highly effective implicit representation that locally aligns pixels of 2D images with the global context of their corresponding 3D object. Using PIFu, we propose an end-to-end deep learning method for digitizing highly detailed clothed humans that can infer both 3D surface and texture from a single image, and optionally, multiple input images. Highly intricate shapes, such as hairstyles, clothing, as well as their variations and deformations can be digitized in a unified way. Compared to existing representations used for 3D deep learning, PIFu can produce high-resolution surfaces including largely unseen regions such as the back of a person. In particular, it is memory efficient unlike the voxel representation, can handle arbitrary topology, and the resulting surface is spatially aligned with the input image. Furthermore, while previous techniques are designed to process either a single image or multiple views, PIFu extends naturally to arbitrary number of views. We demonstrate high-resolution and robust reconstructions on real world images from the DeepFashion dataset, which contains a variety of challenging clothing types. Our method achieves state-of-the-art performance on a public benchmark and outperforms the prior work for clothed human digitization from a single image.

연구 동기 및 목표

단일 이미지 또는 다중 뷰에서 고품질의 3D 의복 인간 재구성을 동기화합니다.
픽셀 정렬 특징을 통해 공간 세부 정보를 보존하는 완전 합성 임의 표현을 개발합니다.
템플릿 없이 임의의 토폴로지를 가진 의복의 텍스처 예측을 가능하게 합니다.
이전의 전역 특징 임의 방식과 템플릿 기반 방법에 비해 개선을 보여줍니다.

제안 방법

완전 합성 네트워크를 사용하여 픽셀 정렬 임의 필드를 학습합니다.
전역 특징과 픽셀 정렬 지역 특징을 결합하여 3D 점유/메시 정보를 추정합니다.
동일한 프레임워크를 사용하여 임의 토폴로지의 3D 표면에 텍스처 추론을 지원합니다.
가용 시점 정보를 다중 뷰에서 활용하여 재구성 품질을 향상시킵니다.
글로벌 임의 함수 기반(예: IM-GAN) 및 템플릿 기반 방법과의 비교를 수행합니다.
보조 자료에 기술적 세부사항과 학습 절차를 제공하고 코드를 공개합니다.

실험 결과

연구 질문

RQ1픽셀 정렬된 완전 합성 임의 표현이 단일 이미지에서 고해상도 의복 인간의 형태와 텍스처를 재구성할 수 있는가?
RQ2다중 뷰 정보를 도입하면 단일 뷰 입력에 비해 3D 재구성 품질과 텍스처 충실도가 더 향상되는가?
RQ3PIFu가 지오메트리와 텍스처 정확도 측면에서 글로벌 특징 임의 방식과 템플릿 기반 접근법과 비교해 어떤 차이가 있는가?
RQ4템플릿에 의존하지 않고 의복의 임의 토폴로지(예: 드레스, 스커트)를 재구성할 수 있는가?
RQ5가려짐 및 윤곽 뷰가 재구성 품질에 미치는 영향은?

주요 결과

방법	정상	P2S	Chamfer
템플릿, 비디오 [1]	0.127	0.820	0.795
저희(3뷰)	0.107	0.665	0.641

PIFu는 단일 이미지로부터 텍스처와 함께 고해상도 의복 인간의 디지털화를 가능하게 하며 다중 뷰를 활용할 수 있습니다.
픽셀 정렬의 완전 합성 접근 방식은 전역 임의 방식(IM-GAN)에 비해 공간 정렬 및 세부 보존을 향상시킵니다.
템플릿 기반 방법과 비교하여 3뷰에서 표에 제시된 모든 지표(Normal, P2S, Chamfer)에서 PIFu가 우수합니다.
템플릿 기반 방법과 PIFu(3뷰) 간의 비교에서 Normal은 0.127에서 0.107로, P2S는 0.820에서 0.665로, Chamfer는 0.795에서 0.641로 개선됩니다.
PIFu는 임의 토폴로지의 3D 표면에 텍스처를 예측하고 가려짐이나 측면 뷰에서도 전역적으로 그럴듯한 모양을 회복할 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.