QUICK REVIEW

[논문 리뷰] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation

Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|2022. 06. 23.

Human Pose and Action Recognition인용 수 22

한 줄 요약

경량의 현장 온 디바이스 파이프라인이 3D 신체 및 손 랜드마크를 추정하고 GHUM 자세/모양을 도출하며, 단일 RGB 이미지에서 실시간 성능을 달성하고 전체 신체 모션 캡처 및 아바타 제어를 위한 온-디바이스 리프터를 제공합니다.

ABSTRACT

We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.

연구 동기 및 목표

단일 RGB 데이터에서 온-디바이스 실시간 전체 신체 추적을 가능하게 하여 3D 인간 자세 추정의 대중화를 이끈다.
표현력 있는 자세와 형태 추정을 위해 3D 신체 및 손 랜드마크를 컴팩트한 GHUM 기반 라이프터와 통합한다.
깊이 순서 감독이 있는 다양한 2D 주석에 GHUM 적합을 활용한 견고한 3D 지상참을 수집하는 방법을 제안한다.
BlazePose를 확장하여 손/손가락을 포함시키고 통합된 holistic 모션 캡처 시스템을 구축한다.
오픈 소스 아바타 데모를 시연하고 장치 간 속도-정밀도 트레이드오프를 평가한다.

제안 방법

단일 RGB 영상에서 한 번의 순전파로 2D/3D 신체 및 손 랜드마크를 예측한다.
BlazePose 사전 정보를 사용해 손 영역을 잘라낸 뒤 고해상도 손 모델을 적용하여 각 손에 21개의 3D 손 랜드마크를 얻는다.
GHUM을 생성적 3D 신체 모델로 사용하고 2D 주석과 깊이 순서 감독에 맞춰 적합시켜 3D 지상참을 얻는다.
MLPMixer 기반의 GHUM 라이프터를 도입해 결합된 신체/손 3D 랜드마크를 GHUM 메쉬 매개변수(r,t,β,θ)로 매핑한다.
강건성을 위한 노이즈 주입과 함께 GHUM 메시를 샘플링하고 고정 선형 회귀를 학습하여 정점 수준의 랜드마크를 추출하도록 라이프터를 학습한다.

실험 결과

연구 질문

RQ1단일 모노큘러 RGB 이미지가 전체 신체 자세 추정을 위한 정확한 3D 신체 및 손 랜드마크를 제공할 수 있는가?
RQ2GHUM 기반 라이프터를 통합하면 실시간 성능을 해치지 않으면서 3D 자세/형상 추정의 표현력과 현실감을 개선하는가?
RQ3광의의 현장에서 3D 지상참을 효과적으로 얻는 방법은 깊이 센싱이나 실험실 설정보다 어떻게 가능한가?
RQ4온-디바이스 추론을 위한 다양한 모델 변형(lite/full/heavy)을 제공할 때 정확도와 속도 간의 트레이드오프는 무엇인가?
RQ5통합 파이프라인이 AR/VR 및 피트니스 응용 분야를 위한 신뢰할 만한 3D 랜드마크 예측 및 3D 아바타 구동을 제공할 수 있는가?

주요 결과

모델	2D	3D	mAP	MAE (mm)
BlazePose Heavy	68.1	36	—	—
BlazePose Full	62.6	39	—	—
BlazePose Lite	45.0	45	—	—
AlphaPose ResNet50	63.4	N/A	—	—
Apple Vision	32.8	N/A	—	—

BlazePose GHUM Holistic는 대부분의 최신 모바일 기기와 브라우저에서 실시간으로 15 FPS로 작동한다.
모델은 2D/3D 랜드마크 정확도에서 경쟁력이 있으며 GHUM 사전에 의해 그럴듯한 자세를 보장한다.
고해상도 손 영역을 재잘라낸 파이프라인은 기준선보다 손 랜드마크 정확도(MEH)를 개선한다.
MLPMixer 기반 GHUM 라이프터는 held-out wild poses 테스트 세트에서 MPJPE-PA 78 mm, MPJPE 121 mm를 달성하여 여러 SOTA 방법들을 능가한다.
추론 속도는 기기와 모델 변형에 따라 달라지며, 브라우저 내 및 모바일 CPU/GPU 구성에서 더 빠른 런타임을 보인다.
오픈 소스 MediaPipe 아바타 데모가 생성된 3D 랜드마크를 사용한 15 FPS 아바타 제어를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.