Skip to main content
QUICK REVIEW

[論文レビュー] 3D Hand Pose Tracking and Estimation Using Stereo Matching

Jiawei Zhang, Jianbo Jiao|arXiv (Cornell University)|Oct 23, 2016
Advanced Vision and Imaging参考文献 34被引用数 122
ひとこと要約

受動ステレオを用いた3D手の姿勢追跡・推定のためのステレオベースフレームワークを提案し、専用のオンライン皮膚色モデルと制約付きステレオマッチングを組み合わせ、手の姿勢ベンチマークとして18kのステレオ/深度ペアを提示する。

ABSTRACT

3D hand pose tracking/estimation will be very important in the next generation of human-computer interaction. Most of the currently available algorithms rely on low-cost active depth sensors. However, these sensors can be easily interfered by other active sources and require relatively high power consumption. As a result, they are currently not suitable for outdoor environments and mobile devices. This paper aims at tracking/estimating hand poses using passive stereo which avoids these limitations. A benchmark with 18,000 stereo image pairs and 18,000 depth images captured from different scenarios and the ground-truth 3D positions of palm and finger joints (obtained from the manual label) is thus proposed. This paper demonstrates that the performance of the state-of-the art tracking/estimation algorithms can be maintained with most stereo matching algorithms on the proposed benchmark, as long as the hand segmentation is correct. As a result, a novel stereo-based hand segmentation algorithm specially designed for hand tracking/estimation is proposed. The quantitative evaluation demonstrates that the proposed algorithm is suitable for the state-of-the-art hand pose tracking/estimation algorithms and the tracking quality is comparable to the use of active depth sensors under different challenging scenarios.

研究の動機と目的

  • アクティブ深度センサーの代わりに受動ステレオを用いることにより、屋外でのモバイル対応の手追跡を促進する。
  • 新しいベンチマーク上で受動ステレオを用いた最先端の手追跡/推定手法を評価する。
  • 頑健な手追跡と推定のために適合させたステレオベースの手のセグメンテーション手法を開発する。
  • カラー画像から信頼性の高い手のセグメンテーションを実現するオンライン学習型の皮膚色モデルを提案する。
  • 困難な条件下でも受動ステレオがアクティブセンサーと同等の追跡/推定性能を達成できることを示す。

提案手法

  • 適応的GMMを用いたオンラインの前景/背景セグメンテーションを使用して、手検出のための場面特異的な皮膚色モデルを訓練する。
  • 過去フレームからの深度を取り入れて皮膚色確率と手の尤度を計算し、頑健な手のセグメンテーションを行う。
  • 局所的/グローバルなさまざまなマッチングコストと集約を用いた広範なステレオマッチング手法を評価し、ベースライン性能を確立する。
  • 手領域近傍の視差を安定化させるため、皮膚色ガイダンスとコスト信頼度を用いた制約付きステレオマッチングフレームワークを導入する。
  • 中間深度マップを用いてステレオマッチングコストを調整し、背景ノイズを低減し手の深度推定を改善する。
  • 最先端の手の姿勢追跡/推定アルゴリズム(PSO, ICPPSO, CHPR)と統合して、受動ステレオ下での性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1手のセグメンテーションが正確な場合、受動ステレオはアクティブ深度センサーと比較して3D手の姿勢追跡/推定をどれくらいサポートできるか?
  • RQ2オンラインの皮膚色モデルに基づくステレオベースの手のセグメンテーション手法は、さまざまな背景や姿勢に対してアクティブセンサと同程度の姿勢精度を達成できるか?
  • RQ3受動ステレオ下での手の姿勢追跡/推定精度における、さまざまなステレオマッチングコスト、集約、視差最適化の影響は何か?
  • RQ4手追跡に合わせて設計された制約付きステレオ手法は、テクスチャが乏しいまたは室内の難しいシーンで頑健性を向上させるか?

主な発見

  • 18,000のステレオ画像ペアと18,000の深度画像を含む手の姿勢ベンチマークを導入し、3D関節位置のグラウンドトゥルースを提供。
  • 手のセグメンテーションが正しい場合、ほとんどのステレオマッチング手法はアクティブ深度センサと同等の追跡/推定性能を示す。
  • 皮膚色ガイダンスとコスト信頼度を活用する制約付きステレオマッチングアルゴリズムは、テクスチャの乏しい領域で手の追跡の頑健性を向上させる。
  • オンラインの皮膚色学習を用いた提案手法は、6つの背景と2種類の姿勢に対してアクティブセンサに近い追跡精度を達成する。
  • Random-forest/CHPRベースの推定法は、提案されたステレオ分割によって支援される場合に関節精度で競争力を持てる。
  • Meshstereoはこのタスクでは性能が低く、PSO/ICPPSOは背景とセグメンテーション品質に応じて頑健性が異なる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。