QUICK REVIEW

[論文レビュー] BigHand2.2M Benchmark: Hand Pose Dataset and State of the Art Analysis

Shanxin Yuan, Qi Ye|arXiv (Cornell University)|Apr 9, 2017

Human Pose and Action Recognition参考文献 28被引用数 30

ひとこと要約

本論文では、新規の6次元磁気センサベースの追跡システムと逆運動学を用いて、自動的かつ高精度にアノテーションされた21関節手ポーズを有する220万枚の深度画像からなる大規模なベンチマーク、BigHand2.2Mを紹介する。このデータセットにより、クロスベンチマーク手ポーズ推定で最先端の性能が達成され、平均誤差が15–20mmにまで低下し、特にCNNを用いたエゴセントリック手ポーズ推定の性能が顕著に向上した。

ABSTRACT

In this paper we introduce a large-scale hand pose dataset, collected using a novel capture method. Existing datasets are either generated synthetically or captured using depth sensors: synthetic datasets exhibit a certain level of appearance difference from real depth images, and real datasets are limited in quantity and coverage, mainly due to the difficulty to annotate them. We propose a tracking system with six 6D magnetic sensors and inverse kinematics to automatically obtain 21-joints hand pose annotations of depth maps captured with minimal restriction on the range of motion. The capture protocol aims to fully cover the natural hand pose space. As shown in embedding plots, the new dataset exhibits a significantly wider and denser range of hand poses compared to existing benchmarks. Current state-of-the-art methods are evaluated on the dataset, and we demonstrate significant improvements in cross-benchmark performance. We also show significant improvements in egocentric hand pose estimation with a CNN trained on the new dataset.

研究の動機と目的

自然な手の動きと多様な視点をカバーする大規模で正確にアノテーションされた実世界の手ポーズデータセットが不足している問題に対処すること。
時間のかかるのと誤差を含みやすい手動および準自動アノテーション手法の限界を克服すること。
制限のないセンサセットと逆運動学を用いて、21関節手ポーズの高精度で自動アノテーションを実現すること。
特にエゴセントリック設定において、最先端の手ポーズ推定モデルの評価と発展を可能にする包括的なベンチマークを構築すること。
BigHand2.2Mで学習させることで、既存のベンチマーク全体にわたって優れた一般化性能と性能が得られることを示すこと。

提案手法

手に取り付けた6つの6次元磁気センサ（指先に5つ、掌に1つ）を用いて、高精度なリアルタイムの3次元関節位置を取得した。
関節制約を考慮した31自由度の手モデルを用いた逆運動学により、センサデータから21関節手ポーズアノテーションを計算した。
外部力が加わらないように、自然な手ポーズ空間を最大限にカバーするための構造化された手の動きプロトコルを設計した。
Intel RealSense SR300を用いて640×480解像度の深度画像を撮影し、ディープラーニングモデルの高品質な入力データを確保した。
全視点カバーを実現した220万フレームと、エゴセントリック視点を含む29万フレームを収集し、既存のエゴセントリックベンチマークを著しく拡張した。
BigHand2.2Mデータセットで学習した3次元CNNを、NYU、ICVL、およびエゴセントリックデータを含む複数のベンチマークで評価し、クロスベンチマークおよび10分割交差検証プロトコルを用いた。

実験結果

リサーチクエスチョン

RQ1自動的かつ非侵襲的なセンシングを用いて、高精度で広範なポーズカバレッジを持つ大規模な実世界の手ポーズデータセットを構築できるか？
RQ2BigHand2.2Mで学習させることで、NYU や ICVL といった既存のベンチマークでの一般化性能と性能がどの程度向上するか？
RQ3BigHand2.2Mで学習したCNNは、従来の小規模な学習データに起因して制限されていたエゴセントリック手ポーズ推定で最先端の性能を達成できるか？
RQ4BigHand2.2Mのアノテーション品質とプロトコルは、先行ベンチマークと比較してポーズ多様性と関節精度の点でどの程度優れているか？
RQ5アノテーションの不一致と異なる手の測定方式が、クロスベンチマーク評価結果に与える影響は何か？

主な発見

BigHand2.2Mデータセットには、220万枚の深度画像と21関節手ポーズアノテーションが含まれており、先行ベンチマークと比較してはるかに広範かつ高密度な自然な手ポーズをカバーしている。
BigHand2.2Mで学習したCNNは、クロスベンチマーク評価で平均誤差15–20mmを達成し、DeepPrior や FeedLoop を含む従来の最先端手法を上回った。
BigHand2.2Mで学習したモデルは、トレーニング中にNYUデータを一度も見ないまま、NYU および ICVL で既存の最良手法と同等の性能を達成した。
29万フレーム（先行エゴセントリックベンチマークの130倍以上）のエゴセントリックサブセットを用いることで、CNNがエゴセントリック手ポーズ推定で最先端の性能を達成し、第三者視点の性能と同等の水準に到達した。
検証セットでは90%の関節が5mm以内の誤差で推定されており、高品質なアノテーションとモデルの信頼性を示している。
可視化結果から、モデルが未学習のポーズに対しても良好に一般化しており、テストセットにアノテーションの不一致が存在しても妥当な予測を出力していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。