QUICK REVIEW

[論文レビュー] First-Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations

Guillermo Garcia-Hernando, Shanxin Yuan|arXiv (Cornell University)|Apr 8, 2017

Hand Gesture Recognition Systems参考文献 74被引用数 18

ひとこと要約

本論文は、RGB-D動画と磁気モーショントラッキングシステムによる3次元手のポーズアノテーションを備えた、新規の第一人称行動認識ベンチマークを紹介している。これにより、エゴセントリックな手と物体のインタラクションの研究が可能になる。主な貢献は、3次元手のポーズ特徴が、外観のみに依存する手法と比較して顕著に行動認識の正確性を向上させることを示したことである。特に、真値ポーズを用いることで78.73%の精度に到達した。また、遮蔽状況下におけるポーズ推定のロバスト性が、性能に与える影響が重要であることも示した。

ABSTRACT

In this work we study the use of 3D hand poses to recognize first-person dynamic hand actions interacting with 3D objects. Towards this goal, we collected RGB-D video sequences comprised of more than 100K frames of 45 daily hand action categories, involving 26 different objects in several hand configurations. To obtain hand pose annotations, we used our own mo-cap system that automatically infers the 3D location of each of the 21 joints of a hand model via 6 magnetic sensors and inverse kinematics. Additionally, we recorded the 6D object poses and provide 3D object models for a subset of hand-object interaction sequences. To the best of our knowledge, this is the first benchmark that enables the study of first-person hand actions with the use of 3D hand poses. We present an extensive experimental evaluation of RGB-D and pose-based action recognition by 18 baselines/state-of-the-art approaches. The impact of using appearance features, poses, and their combinations are measured, and the different training/testing protocols are evaluated. Finally, we assess how ready the 3D hand pose estimation field is when hands are severely occluded by objects in egocentric views and its influence on action recognition. From the results, we see clear benefits of using hand pose as a cue for action recognition compared to other data modalities. Our dataset and experiments can be of interest to communities of 3D hand pose estimation, 6D object pose, and robotics as well as action recognition.

研究の動機と目的

動的で手と物体のインタラクションを伴う、実世界のエゴセントリックデータセットにおいて、正確な3次元手のポーズアノテーションが不足している問題に対処すること。
外観ベースの手がかりと比較して、3次元手のポーズ特徴が第一人称行動認識に与える影響を評価すること。
最先端の手のポーズ推定器が、実世界の遮蔽状況下のエゴセントリックなシーケンスにおいて、どの程度の性能を示すかを評価し、行動認識に与える影響を検証すること。
共同での手と物体のポーズ推定のためのベンチマークを提供し、3次元手のポーズ推定、ロボット工学、行動認識分野における研究を促進すること。

提案手法

26種類の物体を用いた45種類の日常的行動カテゴリを3つのシナリオで実施し、10万フレーム以上のRGB-Dフレームを収集した。
指先に6つのセンサーを装着した独自開発の磁気モーショントラッキングシステムと逆運動学法を用いて、21個の関節の3次元手のポーズを推定した。
4つの物体について、6次元の物体ポーズ真値と3次元メッシュモデルを提供し、手と物体の共同解析を支援した。
一般化性能の評価を目的として、被験者間および物体間の分割を含む、トレーニングおよびテストプロトコルを設計した。
複数のデータモodalおよび融合戦略を用いて、18種類の最先端のRGB-Dおよびポーズベースの行動認識モデルをこのデータセットで評価した。
推論時に真値ポーズを推定ポーズに置き換えることで、ポーズ推定誤差が行動認識に与える影響を定量的に評価した。

実験結果

リサーチクエスチョン

RQ1第一人称行動認識において、RGB-D外観特徴と比較して、3次元手のポーズ特徴はどの程度有効であるか？
RQ2物体による遮蔽が、エゴセントリック視点における手のポーズ推定精度にどの程度悪影響を及えるか？
RQ3実際のエゴセントリックシーケンスにおいて、未知の被験者および未知の物体に対する手のポーズ推定器の一般化性能は、どのように変化するか？
RQ4行動認識タスクにおいて、真値3次元手のポーズと推定ポーズを使用した際の性能差はどの程度か？
RQ5再帰的ネットワークにおける時系列モデリングは、ノイズの多い手のポーズ推定が行動認識に与える悪影響を緩和できるか？

主な発見

真値3次元手のポーズを用いることで、78.73%の行動認識精度を達成し、外観のみのベースラインを顕著に上回った。
ポーズ推定誤差を半分に減らすことで、行動認識性能が2倍以上に向上した。
オブジェクトフリーのデータで訓練されたポーズ推定器を用いた場合、行動認識精度は真値ポーズの78.73%から72.06%に低下した。これは、オブジェクトインタラクションのデータを訓練に組み込む必要があることを示している。
ポーズ推定誤差は親指（12.45 mm）と人差し指（15.48 mm）で最も低く、これらは行動認識において最も情報量が多い部位である。
LSTMベースラインは、時系列モデリングのおかげで、高いポーズ誤差に対しても耐性を示し、妥当な精度を維持した。
物体間一般化性能は被験者間一般化性能よりも著しく劣っており、物体の形状とグリップ構成がポーズ推定に重要な要因であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。