QUICK REVIEW

[論文レビュー] BlazePose GHUM Holistic: Real-time 3D Human Landmarks and Pose Estimation

Ivan Grishchenko, Valentin Bazarevsky|arXiv (Cornell University)|Jun 23, 2022

Human Pose and Action Recognition被引用数 22

ひとこと要約

軽量なデバイス上実行パイプラインで、3Dの体と手のランドマークを推定し、GHUMのポーズ/形状を導出します。単一のRGB画像からのリアルタイム性能を実現し、デバイス上のリフターを用いて全身のモーションキャCaptureとアバター制御を可能にします。

ABSTRACT

We present BlazePose GHUM Holistic, a lightweight neural network pipeline for 3D human body landmarks and pose estimation, specifically tailored to real-time on-device inference. BlazePose GHUM Holistic enables motion capture from a single RGB image including avatar control, fitness tracking and AR/VR effects. Our main contributions include i) a novel method for 3D ground truth data acquisition, ii) updated 3D body tracking with additional hand landmarks and iii) full body pose estimation from a monocular image.

研究の動機と目的

単眼RGBデータからのデバイス上でのリアルタイム全身追跡を実現することで、3D人間ポーズ推定を民主化する。
表現力豊かなポーズと形状推定のために、3Dボディと手のランドマークを、コンパクトな GHUM ベースのリフターと統合する。
深度順序の監視付きで多様な2Dアノテーションを活用し、GHUM適合を用いた堅牢な3D実データ真実の取得を提案する。
BlazePose を拡張して手指を含む統合的なホリスティック・モーションキャプチャシステムを実現する。
オープンソースのアバターデモを実演し、デバイス間の速度と精度のトレードオフを評価する。

提案手法

単一のRGB画像から1回のフィードフォワードで2D/3Dのボディと手のランドマークを予測する。
BlazePose のプライオリを用いて手領域をクロップし、高解像度の手モデルを適用して各手に21個の3D手ランドマークを取得する。
GHUMを生成モデルとして3Dボディとして用い、2Dアノテーションと深度順序の監督を用いて3D実データ真実を得る。
連結したボディ/ハンドの3DランドマークをGHUMメッシュパラメータ（r, t, β, θ）へマッピングするMLPMixerベースのGHUMリフターを導入する。
ロバスト性のためノイズ注入を伴い、GHUMメッシュをサンプリングして固定線形回帰を学習し、頂点レベルのランドマークを取得するリフターを訓練する。

実験結果

リサーチクエスチョン

RQ1デバイス上の単眼RGB画像は、全身ポーズ推定に適した正確な3Dボディと手のランドマークを提供できるのか。
RQ2GHUMベースのリフターを統合することで、リアルタイム性能を損なうことなく3Dポーズ/形状予測の表現力と現実感を向上させられるのか。
RQ3深度センサや実験室環境を大規模に用意せず、野外データの3D実データを効果的に取得する方法は何か。
RQ4デバイス上推論の複数モデル variants（Lite/Full/Heavy）を提供する際の精度と速度のトレードオフはどうなるか。
RQ5統一されたパイプラインはAR/VRとフィットネス用途のために、信頼性の高い3Dランドマークを予測し3Dアバターを駆動できるのか。

主な発見

Model	2D	3D	mAP	mae (mm)
BlazePose Heavy	68.1	36	—	—
BlazePose Full	62.6	39	—	—
BlazePose Lite	45.0	45	—	—
AlphaPose ResNet50	63.4	N/A	—	—
Apple Vision	32.8	N/A	—	—

BlazePose GHUM Holistic はほとんどの最新モバイルデバイスとブラウザでリアルタイムの15 FPS を実現します。
モデルは2D/3Dランドマークの精度で競争力があり、GHUMプリオリを介して妥当なポーズを保持します。
高解像度の手領域を再クロップするパイプラインは、ベースラインより手のランドマーク精度（MEH）を改善します。
MLPMixer を用いた GHUM リフターは held-out wild poses テストセットで MPJPE-PA が 78 mm、MPJPE が 121 mm を達成し、いくつかのSOTA手法を上回ります。
デバイスとモデル Variant によって推論速度は異なり、ブラウザ内およびモバイル CPU/GPU 構成でより高速になります。
オープンソースの MediaPipe アバター・デモは、生成された3Dランドマークを用いた15 FPS のアバター制御を示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。