QUICK REVIEW
[論文レビュー] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation
Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|Jun 23, 2022
Human Pose and Action Recognition被引用数 22
ひとこと要約
軽量なデバイス上実行パイプラインで、3Dの体と手のランドマークを推定し、GHUMのポーズ/形状を導出します。単一のRGB画像からのリアルタイム性能を実現し、デバイス上のリフターを用いて全身のモーションキャCaptureとアバター制御を可能にします。
ABSTRACT
We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.
研究の動機と目的
- 単眼RGBデータからのデバイス上でのリアルタイム全身追跡を実現することで、3D人間ポーズ推定を民主化する。
- 表現力豊かなポーズと形状推定のために、3Dボディと手のランドマークを、コンパクトな GHUM ベースのリフターと統合する。
- 深度順序の監視付きで多様な2Dアノテーションを活用し、GHUM適合を用いた堅牢な3D実データ真実の取得を提案する。
- BlazePose を拡張して手指を含む統合的なホリスティック・モーションキャプチャシステムを実現する。
- オープンソースのアバターデモを実演し、デバイス間の速度と精度のトレードオフを評価する。
提案手法
- 単一のRGB画像から1回のフィードフォワードで2D/3Dのボディと手のランドマークを予測する。
- BlazePose のプライオリを用いて手領域をクロップし、高解像度の手モデルを適用して各手に21個の3D手ランドマークを取得する。
- GHUMを生成モデルとして3Dボディとして用い、2Dアノテーションと深度順序の監督を用いて3D実データ真実を得る。
- 連結したボディ/ハンドの3DランドマークをGHUMメッシュパラメータ(r, t, β, θ)へマッピングするMLPMixerベースのGHUMリフターを導入する。
- ロバスト性のためノイズ注入を伴い、GHUMメッシュをサンプリングして固定線形回帰を学習し、頂点レベルのランドマークを取得するリフターを訓練する。
実験結果
リサーチクエスチョン
- RQ1デバイス上の単眼RGB画像は、全身ポーズ推定に適した正確な3Dボディと手のランドマークを提供できるのか。
- RQ2GHUMベースのリフターを統合することで、リアルタイム性能を損なうことなく3Dポーズ/形状予測の表現力と現実感を向上させられるのか。
- RQ3深度センサや実験室環境を大規模に用意せず、野外データの3D実データを効果的に取得する方法は何か。
- RQ4デバイス上推論の複数モデル variants(Lite/Full/Heavy)を提供する際の精度と速度のトレードオフはどうなるか。
- RQ5統一されたパイプラインはAR/VRとフィットネス用途のために、信頼性の高い3Dランドマークを予測し3Dアバターを駆動できるのか。
主な発見
| Model | 2D | 3D | mAP | mae (mm) |
|---|---|---|---|---|
| BlazePose Heavy | 68.1 | 36 | — | — |
| BlazePose Full | 62.6 | 39 | — | — |
| BlazePose Lite | 45.0 | 45 | — | — |
| AlphaPose ResNet50 | 63.4 | N/A | — | — |
| Apple Vision | 32.8 | N/A | — | — |
- BlazePose GHUM Holistic はほとんどの最新モバイルデバイスとブラウザでリアルタイムの15 FPS を実現します。
- モデルは2D/3Dランドマークの精度で競争力があり、GHUMプリオリを介して妥当なポーズを保持します。
- 高解像度の手領域を再クロップするパイプラインは、ベースラインより手のランドマーク精度(MEH)を改善します。
- MLPMixer を用いた GHUM リフターは held-out wild poses テストセットで MPJPE-PA が 78 mm、MPJPE が 121 mm を達成し、いくつかのSOTA手法を上回ります。
- デバイスとモデル Variant によって推論速度は異なり、ブラウザ内およびモバイル CPU/GPU 構成でより高速になります。
- オープンソースの MediaPipe アバター・デモは、生成された3Dランドマークを用いた15 FPS のアバター制御を示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。