QUICK REVIEW
[논문 리뷰] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation
Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|2022. 06. 23.
Human Pose and Action Recognition인용 수 22
한 줄 요약
경량의 현장 온 디바이스 파이프라인이 3D 신체 및 손 랜드마크를 추정하고 GHUM 자세/모양을 도출하며, 단일 RGB 이미지에서 실시간 성능을 달성하고 전체 신체 모션 캡처 및 아바타 제어를 위한 온-디바이스 리프터를 제공합니다.
ABSTRACT
We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.
연구 동기 및 목표
- 단일 RGB 데이터에서 온-디바이스 실시간 전체 신체 추적을 가능하게 하여 3D 인간 자세 추정의 대중화를 이끈다.
- 표현력 있는 자세와 형태 추정을 위해 3D 신체 및 손 랜드마크를 컴팩트한 GHUM 기반 라이프터와 통합한다.
- 깊이 순서 감독이 있는 다양한 2D 주석에 GHUM 적합을 활용한 견고한 3D 지상참을 수집하는 방법을 제안한다.
- BlazePose를 확장하여 손/손가락을 포함시키고 통합된 holistic 모션 캡처 시스템을 구축한다.
- 오픈 소스 아바타 데모를 시연하고 장치 간 속도-정밀도 트레이드오프를 평가한다.
제안 방법
- 단일 RGB 영상에서 한 번의 순전파로 2D/3D 신체 및 손 랜드마크를 예측한다.
- BlazePose 사전 정보를 사용해 손 영역을 잘라낸 뒤 고해상도 손 모델을 적용하여 각 손에 21개의 3D 손 랜드마크를 얻는다.
- GHUM을 생성적 3D 신체 모델로 사용하고 2D 주석과 깊이 순서 감독에 맞춰 적합시켜 3D 지상참을 얻는다.
- MLPMixer 기반의 GHUM 라이프터를 도입해 결합된 신체/손 3D 랜드마크를 GHUM 메쉬 매개변수(r,t,β,θ)로 매핑한다.
- 강건성을 위한 노이즈 주입과 함께 GHUM 메시를 샘플링하고 고정 선형 회귀를 학습하여 정점 수준의 랜드마크를 추출하도록 라이프터를 학습한다.
실험 결과
연구 질문
- RQ1단일 모노큘러 RGB 이미지가 전체 신체 자세 추정을 위한 정확한 3D 신체 및 손 랜드마크를 제공할 수 있는가?
- RQ2GHUM 기반 라이프터를 통합하면 실시간 성능을 해치지 않으면서 3D 자세/형상 추정의 표현력과 현실감을 개선하는가?
- RQ3광의의 현장에서 3D 지상참을 효과적으로 얻는 방법은 깊이 센싱이나 실험실 설정보다 어떻게 가능한가?
- RQ4온-디바이스 추론을 위한 다양한 모델 변형(lite/full/heavy)을 제공할 때 정확도와 속도 간의 트레이드오프는 무엇인가?
- RQ5통합 파이프라인이 AR/VR 및 피트니스 응용 분야를 위한 신뢰할 만한 3D 랜드마크 예측 및 3D 아바타 구동을 제공할 수 있는가?
주요 결과
| 모델 | 2D | 3D | mAP | MAE (mm) |
|---|---|---|---|---|
| BlazePose Heavy | 68.1 | 36 | — | — |
| BlazePose Full | 62.6 | 39 | — | — |
| BlazePose Lite | 45.0 | 45 | — | — |
| AlphaPose ResNet50 | 63.4 | N/A | — | — |
| Apple Vision | 32.8 | N/A | — | — |
- BlazePose GHUM Holistic는 대부분의 최신 모바일 기기와 브라우저에서 실시간으로 15 FPS로 작동한다.
- 모델은 2D/3D 랜드마크 정확도에서 경쟁력이 있으며 GHUM 사전에 의해 그럴듯한 자세를 보장한다.
- 고해상도 손 영역을 재잘라낸 파이프라인은 기준선보다 손 랜드마크 정확도(MEH)를 개선한다.
- MLPMixer 기반 GHUM 라이프터는 held-out wild poses 테스트 세트에서 MPJPE-PA 78 mm, MPJPE 121 mm를 달성하여 여러 SOTA 방법들을 능가한다.
- 추론 속도는 기기와 모델 변형에 따라 달라지며, 브라우저 내 및 모바일 CPU/GPU 구성에서 더 빠른 런타임을 보인다.
- 오픈 소스 MediaPipe 아바타 데모가 생성된 3D 랜드마크를 사용한 15 FPS 아바타 제어를 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.