Skip to main content
QUICK REVIEW

[論文レビュー] Towards Good Practices for Deep 3D Hand Pose Estimation

Hengkai Guo, Guijin Wang|ArXiv.org|Jul 23, 2017
Human Pose and Action Recognition参考文献 5被引用数 48
ひとこと要約

本論文は、1枚の深度画像からの3次元ハンドポーズ推定のためのリージョンアンサンブルネットワーク(REN)を提案する。この手法は、畳み込みニューラルネットワーク(ConvNet)から得られる空間的に分割された特徴マップに対して、木構造的なアンサンブルを用いた全結合回帰器を適用する。リージョン固有の予測を統合するためのファージョン層を導入し、データ拡張とスムーズL1損失を適用することで、3つの公開ハンドポーズデータセットで最先端の性能を達成し、指先検出および人間のポーズ推定において優れた性能を示す。

ABSTRACT

3D hand pose estimation from single depth image is an important and challenging problem for human-computer interaction. Recently deep convolutional networks (ConvNet) with sophisticated design have been employed to address it, but the improvement over traditional random forest based methods is not so apparent. To exploit the good practice and promote the performance for hand pose estimation, we propose a tree-structured Region Ensemble Network (REN) for directly 3D coordinate regression. It first partitions the last convolution outputs of ConvNet into several grid regions. The results from separate fully-connected (FC) regressors on each regions are then integrated by another FC layer to perform the estimation. By exploitation of several training strategies including data augmentation and smooth $L_1$ loss, proposed REN can significantly improve the performance of ConvNet to localize hand joints. The experimental results demonstrate that our approach achieves the best performance among state-of-the-art algorithms on three public hand pose datasets. We also experiment our methods on fingertip detection and human pose datasets and obtain state-of-the-art accuracy.

研究の動機と目的

  • 従来のランダムフォレスト手法との差が限定的であった、1枚の深度画像からの3次元ハンドポーズ推定におけるディープConvNetの性能向上を図ること。
  • 高い関節の柔軟性、自己遮蔽、視点のばらつき、低品質な深度情報といった課題を、効果的なディープラーニング手法によって解決すること。
  • 高い精度を維持しつつ、計算効率に優れたマルチConvNetアンサンブルの代替となる単一アーキテクチャを提供すること。
  • 提案手法の適用範囲をハンドポーズ推定を越えて、指先検出や人間のポーズ推定といった関連タスクへ拡張すること。

提案手法

  • 本手法は、ConvNetの最終特徴マップを複数の空間的リージョン(例:4×4グリッド)に分割し、局所的回帰を可能にする。
  • 各リージョンは、独立して3次元関節座標を予測する別個の全結合(FC)回帰器によって処理される。
  • 全リージョン固有の回帰器の出力を連結し、最終的なファージョン全結合層に供給することで、最終的な3次元ポーズ予測を生成する。
  • 外れ値に対してロバストな性能を発揮するために、スムーズL1損失関数を用いてエンドツーエンドでネットワークを訓練する。
  • 一般化性能を向上させるとともに過学習を軽減するため、ランダムな画像の反転やクロッピングを含むデータ拡張が適用される。
  • 訓練の安定化と特徴学習の向上を図るため、ベースConvNetに残差接続が組み込まれる。

実験結果

リサーチクエスチョン

  • RQ1空間的リージョンごとにアンサンブル構造を持つ単一のディープConvNetは、深度画像からの3次元ハンドポーズ推定において、既存の最先端手法を上回る性能を発揮できるか?
  • RQ2回帰ベースのハンドポーズ推定において、従来のアンサンブル手法やマルチビュー推論と比較して、リージョンアンサンブル戦略はどの程度有効であるか?
  • RQ3データ拡張やスムーズL1損失といったトレーニング技術は、小規模なハンドポーズデータセットにおいてどの程度性能向上に寄与するか?
  • RQ4提案されたRENアーキテクチャは、再トレーニングなしに、指先検出や人間のポーズ推定といった他のRGB-Dタスクへ汎用的に適用可能で、競争力のある結果を達成できるか?

主な発見

  • RENは、ICVL、NYU、MSRAの3つの公開ハンドポーズデータセットで、すべての先行最先端手法を上回る最高の性能を達成した。
  • NYUデータセットでは、指先検出誤差が15.6mmと、比較対象のすべての手法の中で最低であり、平均精度(mP)は0.66を達成した。
  • ITOPデータセットでは、フロントビューの人間ポーズ推定で84.9 mAPを達成し、RTW や REF より顕著に優れた性能を示し、トップダウンビューでも強力な性能を発揮した。
  • リージョンアンサンブルアプローチは、従来のバギングやマルチビューテストを上回り、より高い精度に加え、メモリ使用量と推論コストが低い。
  • アブレーションスタディの結果、データ拡張とスムーズL1損失が、小規模データセットにおける一般化性能の向上と過学習の低減に顕著に寄与することが確認された。
  • 本手法はハンドポーズ推定を越えて良好に汎用可能であり、ターゲットデータセットでの再トレーニングなしに、指先検出および人間のポーズ推定タスクで最先端の結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。