Skip to main content
QUICK REVIEW

[論文レビュー] Model-based Deep Hand Pose Estimation

Xingyi Zhou, Qingfu Wan|arXiv (Cornell University)|Jun 22, 2016
Hand Gesture Recognition Systems参考文献 16被引用数 83
ひとこと要約

本稿では、予測された関節位置の幾何学的妥当性を保証するため、微分可能でパラメータフリーの前向き運動学(forward kinematics)層を統合した、エンド・ツー・エンドの深層学習フレームワークを提案する。3次元手モデルの非線形的運動学的制約をネットワークに直接埋め込むことで、後処理最適化を必要とせず、NYUおよびICVLデータセットで最先端の精度を達成し、初期段階から物理的に妥当なポーズを生成する。

ABSTRACT

Previous learning based hand pose estimation methods does not fully exploit the prior information in hand model geometry. Instead, they usually rely a separate model fitting step to generate valid hand poses. Such a post processing is inconvenient and sub-optimal. In this work, we propose a model based deep learning approach that adopts a forward kinematics based layer to ensure the geometric validity of estimated poses. For the first time, we show that embedding such a non-linear generative process in deep learning is feasible for hand pose estimation. Our approach is verified on challenging public datasets and achieves state-of-the-art performance.

研究の動機と目的

  • 学習ベースの手ポーズ推定手法が運動学的制約を無視することで生じる幾何学的に不適切なポーズの制限を解消すること。
  • 逆運動学などの別個の最適でない後処理ステップを排除するため、手モデルの生成プロセスをネットワークに直接埋め込むこと。
  • 非線形的で手モデルの幾何学的性質を活用する深層ニューラルネットワークのエンド・ツー・エンド訓練を可能にすること。
  • 微分可能で非線形的な前向き運動学が、アーティキュレーテッドポーズ推定に深層学習に効果的に統合可能であることを示すこと。

提案手法

  • 関節角度から3次元関節座標へマッピングするため、同次変換行列を用いた微分可能でパラメータフリーの前向き運動学層を導入する。
  • スケルトンに沿って回転と平行移動行列の積を計算することで、各関節の位置を木構造の運動学的チェーンを用いて算出する。
  • 関節位置損失と中間ポーズ表現に対する正則化損失の両方を用い、標準的なバックプロパゲーションによるエンド・ツー・エンド訓練を実施する。
  • 全結合層の後に前向き運動学層を適用し、予測された関節角度を3次元関節座標に変換する。
  • 回転と平行移動を関節角度と部品長によってパラメータ化した4×4の同次行列を用いて変換を実装する。
  • 特定の関節の回転行列をその微分に置き換えることで、関節位置が関節角度に関して微分可能な勾配を導出する。

実験結果

リサーチクエスチョン

  • RQ1非線形的で微分可能な前向き運動学層を深層ニューラルネットワークに効果的に統合できるか?
  • RQ23次元手モデルからの幾何学的制約をネットワークに埋め込むことで、従来の学習ベース手法と比較してポーズの精度と妥当性が向上するか?
  • RQ3本手法は、後処理や線形ポーズ事前分布に依存する最先端の手法を上回る性能を示せるか?
  • RQ4中間ポーズ表現に対する正則化損失の導入が、最終的なパフォーマンスにどのような影響を及えるか?

主な発見

  • 本手法はNYUデータセットで最先端の性能を達成し、Tompsonら(2014年)およびOberwegerら(2015a)の手法を上回り、フィードバックループを用いた最良の手法(Oberweger ら 2015b)と同等の性能を示した。
  • ICVLデータセットでは、Tang ら(2014年)を著しく上回り、Oberweger ら(2015a)と同等の結果を得たが、データセットのノイズの多いアノテーションと視点の限定的変動にもかかわらずである。
  • 中間ポーズ表現に対する正則化損失の追加により、推定ポーズの精度と幾何学的妥当性の両方が顕著に向上した。
  • 微分可能な前向き運動学層の使用により、後処理最適化を必要とせず、幾何学的に妥当なポーズをエンド・ツー・エンド訓練で生成できるようになった。
  • 非線形的運動学的制約を深層学習フレームワークに効果的に埋め込めることが実証され、より正確で物理的に妥当な手ポーズ推定が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。