Skip to main content
QUICK REVIEW

[論文レビュー] Detecting Hands and Recognizing Physical Contact in the Wild

Supreeth Narasimhaswamy, Trung Nguyen|arXiv (Cornell University)|Jan 1, 2020
Hand Gesture Recognition Systems被引用数 3
ひとこと要約

本論文では、制約のない画像において手の検出とその物理的接触状態の認識を統合的に実行する、二重アテンション機構を備えた新しいMask-RCNNベースのネットワークを提案する。オブジェクト検出器の出力と空間的アテンション特徴プーリングを活用することで、本研究が新たに作成したデータセットContactHandsにおいて、ベースラインのMask-RCNNに比べ7%の相対的性能向上を達成した。ContactHandsは、実世界のシーンにおける手と接触状態のアノテーションを提供する。

ABSTRACT

We investigate a new problem of detecting hands and recognizing their physical contact state in unconstrained conditions. This is a challenging inference task given the need to reason beyond the local appearance of hands. The lack of training annotations indicating which object or parts of an object the hand is in contact with further complicates the task. We propose a novel convolutional network based on Mask-RCNN that can jointly learn to localize hands and predict their physical contact to address this problem. The network uses outputs from another object detector to obtain locations of objects present in the scene. It uses these outputs and hand locations to recognize the hand's contact state using two attention mechanisms. The first attention mechanism is based on the hand and a region's affinity, enclosing the hand and the object, and densely pools features from this region to the hand region. The second attention module adaptively selects salient features from this plausible region of contact. To develop and evaluate our method's performance, we introduce a large-scale dataset called ContactHands, containing unconstrained images annotated with hand locations and contact states. The proposed network, including the parameters of attention modules, is end-to-end trainable. This network achieves approximately 7\% relative improvement over a baseline network that was built on the vanilla Mask-RCNN architecture and trained for recognizing hand contact states.

研究の動機と目的

  • 局所的な手の外見のみでは不十分な、制約のない現実世界の画像において、手の検出とその物理的接触状態の認識の課題に対処すること。
  • 具体的な手-物体接触ポイントや領域を示すアノテーションが不足しているため、接触推論の教師あり学習が阻害されるという課題を克服すること。
  • 手と物体間の空間的および特徴レベルの関係をモデル化するアテンション機構を用いて、手の局所化と接触状態の予測を統合的に実行する一貫したディーブラーニングフレームワークを開発すること。
  • 制約のある状況下でのハンド接触認識モデルの学習と評価を支援する大規模な実世界データセット、ContactHandsを構築すること。

提案手法

  • 手と物体間の領域類似度に基づく新しいアテンション機構をMask-RCNNに拡張し、手の領域に、ハンド-オブジェクトの結合領域から特徴を密にプールする。
  • プールされた領域からの顕著な特徴を選択的に抽出するための第2のアテンションモジュールを採用し、接触状態予測を精緻化する。
  • 別個のオブジェクト検出器の出力を用いてシーン内のオブジェクト位置を提供し、アテンション計算に用いる妥当な接触領域を定義する。
  • アテンションモジュールを含むすべてのコンponentsがトレーニング中に共同最適化される、エンドツーエンドでトレーニング可能なネットワークを設計する。
  • 空間分解能を保持し、局所化精度を向上させるために、RoIAlignを用いた特徴抽出と領域プーリングを適用する。
  • 境界ボックスとしての手とオブジェクト、および接触状態アノテーションを含むContactHandsデータセットでモデルをトレーニングする。

実験結果

リサーチクエスチョン

  • RQ1ディーブラーニングモデルは、制約のない現実世界の画像において、手の検出と物理的接触状態の認識を同時に実行できるか?
  • RQ2アテンション機構は、接触認識の文脈で、手と物体間の空間的および特徴レベルの関係をどの程度効果的にモデル化できるか?
  • RQ3オブジェクト検出器の出力を統合することで、手の接触状態予測の正確性はどの程度向上するか?
  • RQ4標準的なMask-RCNNベースラインと比較して、提案手法の接触認識性能はどのように差がつくか?

主な発見

  • 提案手法は、手の接触状態認識を目的としたベースラインのMask-RCNNモデルに比べ、7%の相対的性能向上を達成した。
  • 二重アテンション機構は、手と物体間の相互作用の顕著な領域に注目することで、接触推論に適した特徴表現を顕著に向上させた。
  • ContactHandsデータセットは、制約のない現実世界のシナリオにおけるハンド検出および接触認識の評価に貴重なベンチマークを提供する。
  • オブジェクト検出器の出力統合により、モデルの妥当な接触領域の局所化および推論能力が向上した。
  • エンドツーエンドのトレーニング方式により、アテンションモジュールおよび全体の検出・認識パイプラインの効果的最適化が可能になった。
  • アテンションに基づく特徴精錬のおかげで、遮蔽や多様な手-物体相互作用を伴う複雑なシーンにおいても、モデルは頑健性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。