QUICK REVIEW

[論文レビュー] Sparse Inertial Poser: Automatic 3D Human Pose Estimation from Sparse IMUs

Timo von Marcard, Bodo Rosenhahn|arXiv (Cornell University)|Mar 23, 2017

Human Pose and Action Recognition被引用数 19

ひとこと要約

スパースインertリアルポーザー（SIP）は、全フレームにわたって統合的に最適化する統計的ボディモデル（SMPL）を用いて、6つのインertリアルセンサ（IMU）からの方向および加速度データに適合させることで、ビデア入力なしに正確な3次元人体ポーズ推定を実現する。本手法は、TNT15データセットにおいて13.32°の方向誤差および3.9 cmの位置誤差を達成し、ベースラインを上回る精度を示しており、階段の上り下りやジャンプなどの制約のない屋外環境でも安定性を示している。

ABSTRACT

We address the problem of making human motion capture in the wild more practical by using a small set of inertial sensors attached to the body. Since the problem is heavily under-constrained, previous methods either use a large number of sensors, which is intrusive, or they require additional video input. We take a different approach and constrain the problem by: (i) making use of a realistic statistical body model that includes anthropometric constraints and (ii) using a joint optimization framework to fit the model to orientation and acceleration measurements over multiple frames. The resulting tracker Sparse Inertial Poser (SIP) enables 3D human pose estimation using only 6 sensors (attached to the wrists, lower legs, back and head) and works for arbitrary human motions. Experiments on the recently released TNT15 dataset show that, using the same number of sensors, SIP achieves higher accuracy than the dataset baseline without using any video data. We further demonstrate the effectiveness of SIP on newly recorded challenging motions in outdoor scenarios such as climbing or jumping over a wall.

研究の動機と目的

マーカー追跡型およびビジョンベース型システムが不適切となる実世界の制約のない環境における人体運動キャプチャの課題に対処すること。
限られたセンサ数や積分によるドリフトといった、全身3次元ポーズ推定に不十分な情報となるスパースなIMUデータの欠陊性を克服すること。
手首、下腿、背中、頭部に配置された6つのIMUのみを用いる最小限の侵襲的ソリューションを構築し、日常的活動への実用的導入を可能にすること。
ビデア入力や大規模なセンサアレイに依存しないように、統計的ボディモデリングとマルチフレーム最適化を活用すること。
階段の上り下りやジャンプ、執筆などの複雑な制約のない運動において、屋外および遮蔽状況下でも高い性能を発揮することを実証すること。

提案手法

人体の解剖学的および運動学的制約をエンコードするSMPL統計的ボディモデルを用い、妥当な人体ポーズの事前知識を提供する。
全フレームにわたるすべてのIMUフレームの方向および加速度測定値に、同時にボディモデルを適合させる共同最適化フレームワークを定式化する。
IMU測定値（方向および加速度）とSMPLモデルのポーズおよび形状パラメータを組み合わせたコスト関数を最小化することで、物理的に妥当なポーズを保証する。
全フレームを一度に最適化することで時間的正則化を適用し、フレーム単位の積分と比較してドリフト低減と安定性向上を実現する。
関節角度および身体の寸法比に関する事前分布を組み込み、特定の関節（例：手首、足首）の直接測定が欠落している場合でも解剖学的現実性を維持する。
勾配ベースの最適化手法を用いて全ポーズシーケンスを解き、センサデータおよびモデル事前分布からの逸脱をペナルティ関数で制御する。

実験結果

リサーチクエスチョン

RQ1ビデア入力や高密度センサアレイなしに、6つのIMUからのみで正確な全身3次元人体ポーズを推定できるか？
RQ2全フレームにわたる共同最適化は、フレーム単位の積分と比較して、ドリフト低減とポーズ推定の安定性向上にどの程度効果的か？
RQ3統計的ボディモデル（SMPL）は、制約のない運動キャプチャにおけるIMUデータの曖昧さとスパarsityをどの程度補完できるか？
RQ4本手法は、高動的運動や遮蔽を伴う運動（例：壁を飛び越えるジャンプ、階段の上り下り、ホワイトボードへの執筆）のような複雑な実世界の運動に一般化可能か？
RQ5方向データのみを用いるベースラインや異なるボディモデルを用いた手法と比較して、本手法のポーズ精度は定量的にどの程度優れているか？

主な発見

SIPは、TNT15データセットにおいて6つのIMUのみを用いた場合に、平均方向誤差13.32°および位置誤差3.9 cmを達成し、ビデア入力なしのデータセットベースラインを顕著に上回っている。
本手法は、壁を飛び越えるジャンプ、階段の上り下り、自転車走行、ホワイトボードへの執筆といった複雑な運動を正確に再構築できており、制約のない屋外環境でも安定性を示している。
全フレームにわたる共同最適化はドリフト低減と安定性向上に効果的であり、先行研究で一般的に用いられるフレーム単位の積分手法を上回っている。
SMPLモデルの使用により、不完全で曖昧なセンサデータに対しても正確なポーズ推定が可能となり、強力な解剖学的および運動学的事前知識が得られる。
身体形状レーティングから導出された近似ボディモデルを用いても本手法は有効であるため、入力の不確実性に対しても頑健であることが示された。
SIPは6つのセンサでの最小限の侵襲的運動キャプチャを実現し、VR、健康モニタリング、行動研究など実世界の応用に実用的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。