QUICK REVIEW

[논문 리뷰] BodyNet: Volumetric Inference of 3D Human Body Shapes

Gül Varol, Duygu Ceylan|arXiv (Cornell University)|2018. 04. 13.

Human Pose and Action Recognition참고 문헌 57인용 수 62

한 줄 요약

BodyNet은 단일 이미지에서 보셀 점유 표현, 다중 시점 재투영 손실 및 중간 감독을 사용하여 전체 3D 체적 인체 모양을 추론하는 방법을 학습하며, SURREAL 및 Unite the People에서 최첨단 SMPL 피팅을 달성하고 3D 신체 부위 분할을 가능하게 한다.

ABSTRACT

Human shape estimation is an important task for video editing, animation and fashion industry. Predicting 3D human body shape from natural images, however, is highly challenging due to factors such as variation in human bodies, clothing and viewpoint. Prior methods addressing this problem typically attempt to fit parametric body models with certain priors on pose and shape. In this work we argue for an alternative representation and propose BodyNet, a neural network for direct inference of volumetric body shape from a single image. BodyNet is an end-to-end trainable network that benefits from (i) a volumetric 3D loss, (ii) a multi-view re-projection loss, and (iii) intermediate supervision of 2D pose, 2D body part segmentation, and 3D pose. Each of them results in performance improvement as demonstrated by our experiments. To evaluate the method, we fit the SMPL model to our network output and show state-of-the-art results on the SURREAL and Unite the People datasets, outperforming recent approaches. Besides achieving state-of-the-art performance, our method also enables volumetric body-part segmentation.

연구 동기 및 목표

단일 시점에서의 3D 인체 형태 추정 다루기.
3D 인체 형상을 위한 체적 voxel 기반 표현 도입.
다중 시점 재투영 및 중간 감독(2D 포즈, 2D 분할, 3D 포즈)을 갖춘 엔드-투-엔드 네트워크 개발.
SURREAL 및 Unite the People 데이터셋에서 최첨단 SMPL 피팅 결과 달성.
형태 예측과 함께 체적 3D 신체 부위 분할 가능화.

제안 방법

루트 관절을 중심으로 128x128x128 해상도의 보셀 점유 격자로 3D 신체 형태를 예측한다.
보셀 단위 이진 교차 엔트로피 손실로 학습하고 다중 클래스 교차 엔트로피 손실을 사용하여 3D 신체 부위 분할로 확장한다.
보셀 격자를 앞면 및 옆면 뷰로 투영하여 경계 보셀을 강조하는 다중 시점 재투영 손실(FV 및 SV 손실)을 사용한다.
2D 포즈, 2D 신체 부위 분할, 3D 포즈에 대한 중간 감독이 있는 다중 작업 학습 설정을 활용하여 3D 형태 추정을 돕는다.
0단계 학습 커리큘럼: 먼저 2D 작업을 학습하고, 그다음 3D 포즈, 다시 재투영 손실이 있는 3D 형상으로 학습한 후, 결합 손실을 사용한 엔드투엔드 미세 조정.
평가를 위해 이소표면 추출과 Chamfer 거리 및 관절 정렬 항을 통한 SMPL 매개변수 최적화를 통해 보셀 출력에 SMPL 모델을 맞춘다.

실험 결과

연구 질문

RQ1보셀 기반 체적 표현이 RGB 이미지로부터 정확한 단일 시점 3D 인체 형상을 생성할 수 있는가?
RQ2다중 시점 재투영 손실의 도입이 특히 팔다리에 대해 체적 신체 재구성의 품질을 향상시키는가?
RQ3중간 감독 신호(2D 포즈, 2D 분할, 3D 포즈)가 최종 3D 형상 추정 및 SMPL 피팅을 향상시키는가?
RQ4BodyNet은 SURREAL 및 Unite the People(UP)와 같은 대규모 데이터셋에서 기존 방법과 비교하여 어떻게 성능을 보이는가?
RQ5체적 네트워크가 별도의 최적화 없이도 3D 신체 부위 분할을 생성할 수 있는가?

주요 결과

BodyNet은 다중 시점 재투영 및 보조 작업으로 엔드-투-엔드로 학습될 때 SURREAL 및 Unite the People 데이터셋에서 최첨단 SMPL 피트를 달성한다.
다중 시점 FV 및 SV 윤곽 투영을 사용하면 ablated 변형에 비해 SMPL 표면 오차 및 보셀 IOU가 개선된다.
중간 감독으로 구성된 엔드-투-엔드 다중 작업 학습은 모든 서브네트워크를 정규화하고 독립적으로 구성 요소를 학습하는 것보다 더 나은 3D 형태 추정을 제공한다.
이 방법은 3D 신체 부위 분할을 가능하게 하며 최신 GPU에서 이미지당 0.28초(전경 보셀) 및 0.58초(신체 부위 보셀)의 처리 속도를 달성한다.
평균 SMPL 형태에서 벗어나 편차를 학습하는 체적 예측의 이점을 강조하는 베타 매개변수 회귀 네트워크는 보셀 기반 BodyNet에 비해 성능이 떨어진다.
보셀 출력에 SMPL 피팅을 수행하면 3D 포즈에 대한 강건한 정렬을 얻고 2D 신호에만 의존한 경쟁자들보다 3D 지표가 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.