QUICK REVIEW

[논문 리뷰] DenseBody: Directly Regressing Dense 3D Human Pose and Shape From a Single Color Image

Pengfei Yao, Zheng Fang|arXiv (Cornell University)|2019. 03. 25.

Human Pose and Action Recognition참고 문헌 48인용 수 30

한 줄 요약

DenseBody는 단일 RGB 이미지에서 직접 조밀한 3D 인간 신체 메시를 추정하는 엔드 투 엔드 딥 러닝 프레임워크를 제안한다. 이는 새로운 UV 위치 맵 표현 방식을 사용한다. 중간 단계의 지도 학습 없이 인코더-디코더 CNN을 학습시켜 이 3D 표현을 예측함으로써, Human3.6M, SURREAL, UP-3D에서 최신 기술 수준의 성능을 달성하며, 추론 속도는 최대 200 FPS에 이른다.

ABSTRACT

Recovering 3D human body shape and pose from 2D images is a challenging task due to high complexity and flexibility of human body, and relatively less 3D labeled data. Previous methods addressing these issues typically rely on predicting intermediate results such as body part segmentation, 2D/3D joints, silhouette mask to decompose the problem into multiple sub-tasks in order to utilize more 2D labels. Most previous works incorporated parametric body shape model in their methods and predict parameters in low-dimensional space to represent human body. In this paper, we propose to directly regress the 3D human mesh from a single color image using Convolutional Neural Network(CNN). We use an efficient representation of 3D human shape and pose which can be predicted through an encoder-decoder neural network. The proposed method achieves state-of-the-art performance on several 3D human body datasets including Human3.6M, SURREAL and UP-3D with even faster running speed.

연구 동기 및 목표

제한된 3D 지도 신호를 가진 단일 RGB 이미지에서 3D 인간 신체 재구성을 다루는 데 목적이 있다.
성능을 제한하고 복잡성을 증가시키는 중간 표현 방식(예: 2D 관절, 세그멘테이션, 실루엣)에 의존하는 것을 제거하는 데 목적이 있다.
이미지에서 조밀한 3D 메시 기하학으로 직접 매핑하는 효율적인 엔드 투 엔드 프레임워크를 개발하는 데 목적이 있다.
기존 최신 기술 수준의 방법들과 비교해 뛰어난 정확도와 추론 속도를 달성하는 데 목적이 있다.
단일 단계 학습 파라다임에서 UV 기반 3D 표현이 직접 3D 메시 회귀에 효과적인지 입증하는 데 목적이 있다.

제안 방법

조밀한 3D 인간 메시 기하학을 인코딩할 수 있는 새로운 3D 표현 방식으로 UV 위치 맵을 제안하여, RGB 이미지에서 직접 메시를 추정할 수 있도록 한다.
인코더는 입력 이미지를 처리하고 디코더는 3D 메시의 UV 맵을 재구성하는 인코더-디코더 CNN 아키텍처를 사용한다.
중간 단계의 지도 학습이나 다단계 보정 없이 UV 맵 예측을 직접 최적화하는 단일 단계 학습 프로세스를 적용한다.
지오메트릭 복잡성을 다루고 정확도를 향상시키기 위해 부위별 및 관절별 가중치를 적용한 가중 L1 손실을 사용한다.
예측된 UV 맵의 매끄러움을 증진하고 노이즈를 줄이기 위해 총 변동성(Total Variation, TV) 손실을 도입한다.
SMPL 매개변수 모델을 암묵적으로 UV 맵 표현 방식을 통해 활용하여, 명시적인 SMPL 매개변수 예측 없이도 일관된 3D 메시 생성을 가능하게 한다.

실험 결과

연구 질문

RQ12D 지도 신호 없이 단일 RGB 이미지에서 3D 인간 메시를 직접 엔드 투 엔드로 추정하는 것이 가능한가?
RQ2UV 기반 3D 표현 방식은 기존의 SMPL 매개변수화나 부피형 출력 방식보다 더 정확하고 효율적인 3D 메시 예측을 가능하게 하는가?
RQ3중간 단계의 2D 지도 학습(예: 관절 히트맵 또는 세그멘테이션)에 의존하는 다단계 방법보다 단일 단계 학습 프레임워크가 성능 면에서 뛰어나게 되는가?
RQ4기존 최신 기술 수준의 방법들과 비교해 표준 3D 인간 신체 벤치마크에서 정확도와 속도 면에서 어떻게 성능을 내는가?
RQ5다양한 네트워크 아키텍처와 손실 함수의 조합이 최종 3D 재구성 품질에 어떤 영향을 미치는가?

주요 결과

DenseBody는 SURREAL 데이터셋에서 최신 기술 수준의 성능을 달성하여 표면 오차를 이전 방법 대비 31.5% 감소시키고 관절 오차를 13.0% 감소시켰다.
Human3.6M에서 추가 학습 데이터 없이도 모든 방법들 중에서 가장 낮은 MPJPE(3D 관절 오차)를 기록했으며, 추가 데이터를 사용할 경우 최고 성능 방법과 동일한 성능을 달성했다.
UP-3D 데이터셋에서 모든 이전 최신 기술 수준의 방법들을 능가했으며, 표면 오차는 91.7 mm, 관절 오차는 71.4 mm로 기록했다.
단일 GPU에서 200 FPS로 실행되어 HMR(1270 ms), NBF(169 ms), Bodynet(1810 ms)와 같은 이전 방법들보다 크게 빠른 속도를 기록했다.
절단 실험 결과, 부위별 및 관절별 마스크를 적용한 가중 L1 손실이 가장 뛰어난 성능(51.4 mm MPJPE)을 내며, 네트워크 아키텍처 선택이 최종 정확도에 미치는 영향은 미미한 것으로 나타났다.
총 변동성(TV) 손실을 추가하면 성능이 약간 향상되었으며(51.0 mm MPJPE), 이는 UV 맵 예측의 매끄러움과 강인성이 향상되었음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.