Skip to main content
QUICK REVIEW

[논문 리뷰] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation

Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|2022. 06. 23.
Human Pose and Action Recognition인용 수 22
한 줄 요약

경량의 현장 온 디바이스 파이프라인이 3D 신체 및 손 랜드마크를 추정하고 GHUM 자세/모양을 도출하며, 단일 RGB 이미지에서 실시간 성능을 달성하고 전체 신체 모션 캡처 및 아바타 제어를 위한 온-디바이스 리프터를 제공합니다.

ABSTRACT

We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.

연구 동기 및 목표

  • 단일 RGB 데이터에서 온-디바이스 실시간 전체 신체 추적을 가능하게 하여 3D 인간 자세 추정의 대중화를 이끈다.
  • 표현력 있는 자세와 형태 추정을 위해 3D 신체 및 손 랜드마크를 컴팩트한 GHUM 기반 라이프터와 통합한다.
  • 깊이 순서 감독이 있는 다양한 2D 주석에 GHUM 적합을 활용한 견고한 3D 지상참을 수집하는 방법을 제안한다.
  • BlazePose를 확장하여 손/손가락을 포함시키고 통합된 holistic 모션 캡처 시스템을 구축한다.
  • 오픈 소스 아바타 데모를 시연하고 장치 간 속도-정밀도 트레이드오프를 평가한다.

제안 방법

  • 단일 RGB 영상에서 한 번의 순전파로 2D/3D 신체 및 손 랜드마크를 예측한다.
  • BlazePose 사전 정보를 사용해 손 영역을 잘라낸 뒤 고해상도 손 모델을 적용하여 각 손에 21개의 3D 손 랜드마크를 얻는다.
  • GHUM을 생성적 3D 신체 모델로 사용하고 2D 주석과 깊이 순서 감독에 맞춰 적합시켜 3D 지상참을 얻는다.
  • MLPMixer 기반의 GHUM 라이프터를 도입해 결합된 신체/손 3D 랜드마크를 GHUM 메쉬 매개변수(r,t,β,θ)로 매핑한다.
  • 강건성을 위한 노이즈 주입과 함께 GHUM 메시를 샘플링하고 고정 선형 회귀를 학습하여 정점 수준의 랜드마크를 추출하도록 라이프터를 학습한다.

실험 결과

연구 질문

  • RQ1단일 모노큘러 RGB 이미지가 전체 신체 자세 추정을 위한 정확한 3D 신체 및 손 랜드마크를 제공할 수 있는가?
  • RQ2GHUM 기반 라이프터를 통합하면 실시간 성능을 해치지 않으면서 3D 자세/형상 추정의 표현력과 현실감을 개선하는가?
  • RQ3광의의 현장에서 3D 지상참을 효과적으로 얻는 방법은 깊이 센싱이나 실험실 설정보다 어떻게 가능한가?
  • RQ4온-디바이스 추론을 위한 다양한 모델 변형(lite/full/heavy)을 제공할 때 정확도와 속도 간의 트레이드오프는 무엇인가?
  • RQ5통합 파이프라인이 AR/VR 및 피트니스 응용 분야를 위한 신뢰할 만한 3D 랜드마크 예측 및 3D 아바타 구동을 제공할 수 있는가?

주요 결과

모델2D3DmAPMAE (mm)
BlazePose Heavy68.136
BlazePose Full62.639
BlazePose Lite45.045
AlphaPose ResNet5063.4N/A
Apple Vision32.8N/A
  • BlazePose GHUM Holistic는 대부분의 최신 모바일 기기와 브라우저에서 실시간으로 15 FPS로 작동한다.
  • 모델은 2D/3D 랜드마크 정확도에서 경쟁력이 있으며 GHUM 사전에 의해 그럴듯한 자세를 보장한다.
  • 고해상도 손 영역을 재잘라낸 파이프라인은 기준선보다 손 랜드마크 정확도(MEH)를 개선한다.
  • MLPMixer 기반 GHUM 라이프터는 held-out wild poses 테스트 세트에서 MPJPE-PA 78 mm, MPJPE 121 mm를 달성하여 여러 SOTA 방법들을 능가한다.
  • 추론 속도는 기기와 모델 변형에 따라 달라지며, 브라우저 내 및 모바일 CPU/GPU 구성에서 더 빠른 런타임을 보인다.
  • 오픈 소스 MediaPipe 아바타 데모가 생성된 3D 랜드마크를 사용한 15 FPS 아바타 제어를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.