Skip to main content
QUICK REVIEW

[論文レビュー] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation

Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|Jun 23, 2022
Human Pose and Action Recognition被引用数 22
ひとこと要約

軽量なデバイス上実行パイプラインで、3Dの体と手のランドマークを推定し、GHUMのポーズ/形状を導出します。単一のRGB画像からのリアルタイム性能を実現し、デバイス上のリフターを用いて全身のモーションキャCaptureとアバター制御を可能にします。

ABSTRACT

We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.

研究の動機と目的

  • 単眼RGBデータからのデバイス上でのリアルタイム全身追跡を実現することで、3D人間ポーズ推定を民主化する。
  • 表現力豊かなポーズと形状推定のために、3Dボディと手のランドマークを、コンパクトな GHUM ベースのリフターと統合する。
  • 深度順序の監視付きで多様な2Dアノテーションを活用し、GHUM適合を用いた堅牢な3D実データ真実の取得を提案する。
  • BlazePose を拡張して手指を含む統合的なホリスティック・モーションキャプチャシステムを実現する。
  • オープンソースのアバターデモを実演し、デバイス間の速度と精度のトレードオフを評価する。

提案手法

  • 単一のRGB画像から1回のフィードフォワードで2D/3Dのボディと手のランドマークを予測する。
  • BlazePose のプライオリを用いて手領域をクロップし、高解像度の手モデルを適用して各手に21個の3D手ランドマークを取得する。
  • GHUMを生成モデルとして3Dボディとして用い、2Dアノテーションと深度順序の監督を用いて3D実データ真実を得る。
  • 連結したボディ/ハンドの3DランドマークをGHUMメッシュパラメータ(r, t, β, θ)へマッピングするMLPMixerベースのGHUMリフターを導入する。
  • ロバスト性のためノイズ注入を伴い、GHUMメッシュをサンプリングして固定線形回帰を学習し、頂点レベルのランドマークを取得するリフターを訓練する。

実験結果

リサーチクエスチョン

  • RQ1デバイス上の単眼RGB画像は、全身ポーズ推定に適した正確な3Dボディと手のランドマークを提供できるのか。
  • RQ2GHUMベースのリフターを統合することで、リアルタイム性能を損なうことなく3Dポーズ/形状予測の表現力と現実感を向上させられるのか。
  • RQ3深度センサや実験室環境を大規模に用意せず、野外データの3D実データを効果的に取得する方法は何か。
  • RQ4デバイス上推論の複数モデル variants(Lite/Full/Heavy)を提供する際の精度と速度のトレードオフはどうなるか。
  • RQ5統一されたパイプラインはAR/VRとフィットネス用途のために、信頼性の高い3Dランドマークを予測し3Dアバターを駆動できるのか。

主な発見

Model2D3DmAPmae (mm)
BlazePose Heavy68.136
BlazePose Full62.639
BlazePose Lite45.045
AlphaPose ResNet5063.4N/A
Apple Vision32.8N/A
  • BlazePose GHUM Holistic はほとんどの最新モバイルデバイスとブラウザでリアルタイムの15 FPS を実現します。
  • モデルは2D/3Dランドマークの精度で競争力があり、GHUMプリオリを介して妥当なポーズを保持します。
  • 高解像度の手領域を再クロップするパイプラインは、ベースラインより手のランドマーク精度(MEH)を改善します。
  • MLPMixer を用いた GHUM リフターは held-out wild poses テストセットで MPJPE-PA が 78 mm、MPJPE が 121 mm を達成し、いくつかのSOTA手法を上回ります。
  • デバイスとモデル Variant によって推論速度は異なり、ブラウザ内およびモバイル CPU/GPU 構成でより高速になります。
  • オープンソースの MediaPipe アバター・デモは、生成された3Dランドマークを用いた15 FPS のアバター制御を示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。