QUICK REVIEW

[論文レビュー] End-to-end Global to Local CNN Learning for Hand Pose Recovery in Depth Data

Meysam Madadi, Sérgio Escalera|arXiv (Cornell University)|May 26, 2017

Human Pose and Action Recognition参考文献 27被引用数 46

ひとこと要約

本論文では、個々の指および手の領域の局所的ポーズ表現を学習し、それらを階層的ツリー構造で統合することで関節の依存関係をモデル化する階層的ツリー構造CNNを提案する。物理的制約および外観制約を損失関数に組み込み、非剛性のデータ拡張を用いることで、NYUデータセットにおいて平均3D誤差を4.6mm削減し、最先端の性能を達成した。

ABSTRACT

Despite recent advances in 3D pose estimation of human hands, especially thanks to the advent of CNNs and depth cameras, this task is still far from being solved. This is mainly due to the highly non-linear dynamics of fingers, which make hand model training a challenging task. In this paper, we exploit a novel hierarchical tree-like structured CNN, in which branches are trained to become specialized in predefined subsets of hand joints, called local poses. We further fuse local pose features, extracted from hierarchical CNN branches, to learn higher order dependencies among joints in the final pose by end-to-end training. Lastly, the loss function used is also defined to incorporate appearance and physical constraints about doable hand motion and deformation. Finally, we introduce a non-rigid data augmentation approach to increase the amount of training depth data. Experimental results suggest that feeding a tree-shaped CNN, specialized in local poses, into a fusion network for modeling joints correlations and dependencies, helps to increase the precision of final estimations, outperforming state-of-the-art results on NYU and SyntheticHand datasets.

研究の動機と目的

自己遮蔽、ノイズ、複雑な指の運動が生じる状況下でも、深度画像における正確な3次元手ポーズ推定を実現すること。
グローバルな回帰モデルの限界を克服するため、指および手領域の局所的で特化されたサブタスクにポーズ推定タスクを分解すること。
深度マップの非剛性データ拡張技術を導入することで、一般化性能およびロバストネスを向上させること。
物理的妥当性および外観の一貫性を強制する損失関数を用いることで、最終的なポーズ推定精度を向上させること。

提案手法

各ブランチが事前に定義された関節サブセットの予測に特化したツリー型CNNアーキテクチャを設計し、局所的特徴の学習を可能にする。
完全結合層を用いて階層的CNNブランチからの特徴を統合し、関節間の高階層依存関係をエンドツーエンドで学習可能な形でモデル化する。
L2損失に加え、物理的制約および外観制約を組み合わせた複合損失関数を定義し、非現実的な手の配置を罰する。
キネマティックパラメータと補間を用いて真値の手関節を変形することで、元の深度データから現実的なトレーニングサンプルを生成する非剛性データ拡張法を導入する。
バックプロパゲーションを用いてネットワーク全体をエンドツーエンドで訓練し、局所的およびグローバルなポーズ推定を同時に最適化可能にする。
アーリーエンコーディングのためのビューポイントレグレッサーを統合し、その特徴を最終的なポーズ予測に統合する。

実験結果

リサーチクエスチョン

RQ1指および手領域の局所的特化ブランチを備えた階層的CNN構造は、グローバル回帰モデルと比較して3次元手ポーズ推定精度を向上させることができるか？
RQ2グローバル統合ネットワークによる局所特徴の統合は、関節間の依存関係のモデリングを強化し、最終的なポーズ推定を改善するか？
RQ3非線形性が著しい手の構造において、損失関数に組み込まれた物理的および外観的制約は、非現実的なポーズ予測をどの程度低減できるか？
RQ4キネマティック変形に基づく非剛性データ拡張は、未学習の深度データにおける一般化性能および性能向上に寄与するか？
RQ5ベンチマークデータセットにおける平均3D誤差および成功率の観点から、本手法は最先端の手法と比較してどの程度優れているか？

主な発見

本手法はNYUデータセットで平均3D誤差11.0mmを達成し、前回の最先端手法と比較して4.6mmの改善を達成した。
MSRAデータセットでは平均誤差9.7mmを達成し、DeepPrior++（9.5mm）を上回り、既存の最良手法と同等の性能を示した。
非剛性データ拡張技術はNYUデータセットにおいて顕著な性能向上をもたらし、ベースライン学習と比較して平均誤差を4.6mm削減した。
定性的な結果から、特に複雑なポーズにおいても関節の局所化が向上しており、統合ネットワークが効果的に局所的およびグローバルな手がかりを統合していることが示された。
ノイズおよび困難な視点に対してもロバストであることが示され、特にSyntheticHandデータセットでは平均誤差3.94mmを記録した。
MSRAデータセットではトレーニング中に若干の発散が見られたが、標準的な増強法を用いても強力な性能を達成しており、アノテーションの不正確さに対しても耐性があることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。