QUICK REVIEW

[論文レビュー] Deep Contextual Attention for Human-Object Interaction Detection

Tiancai Wang, Rao Muhammad Anwer|arXiv (Cornell University)|Oct 17, 2019

Multimodal Machine Learning Applications参考文献 29被引用数 24

ひとこと要約

本稿では、外見特徴に文脈に配慮した表現を組み込み、インスタンスに依存するアテンションモジュールを用いて背景ノイズを低減すると同時に、相互作用に関連する領域を強調する、深層文脈的アテンションフレームワークを提案する。この手法は、V-COCOでmAP roleに4.4%の相対的向上、HICO-DETで9.4%の相対的向上を達成し、微細な相互作用認識における文脈モデリングの有効性を示している。

ABSTRACT

Human-object interaction detection is an important and relatively new class of visual relationship detection tasks, essential for deeper scene understanding. Most existing approaches decompose the problem into object localization and interaction recognition. Despite showing progress, these approaches only rely on the appearances of humans and objects and overlook the available context information, crucial for capturing subtle interactions between them. We propose a contextual attention framework for human-object interaction detection. Our approach leverages context by learning contextually-aware appearance features for human and object instances. The proposed attention module then adaptively selects relevant instance-centric context information to highlight image regions likely to contain human-object interactions. Experiments are performed on three benchmarks: V-COCO, HICO-DET and HCVRD. Our approach outperforms the state-of-the-art on all datasets. On the V-COCO dataset, our method achieves a relative gain of 4.4% in terms of role mean average precision ($mAP_{role}$), compared to the existing best approach.

研究の動機と目的

従来のHOI検出手法が外見特徴にのみ依存し、文脈的情報を無視するという限界を是正すること。
人間と物体のインスタンスに対して文脈に配慮した外見表現を学習することで、相互作用認識を向上させること。
インスタンスに依存するアテンション機構を用いて、文脈特徴からの背景ノイズを低減するとともに、相互作用に関連する手がかりを保持すること。
V-COCO、HICO-DET、HCVRDを含む複数のHOI検出ベンチマークで最先端の性能を達成すること。
インスタンス中心の文脈モデリングが、微細な人間-物体相互作用を区別する上で有効であることを示すこと。

提案手法

人間と物体の外見特徴を豊かにするために、グローバルおよびローカルな文脈を集約する文脈に配慮した外見モジュールを導入する。
グローバル画像レベルの文脈を捉えるための文脈集約ブロックと、インスタンス固有の周辺領域文脈を抽出するローカル符号化ブロックを採用する。
人間と物体のインスタンスに応じて、関連する文脈特徴を適応的に選択するインスタンスに依存するアテンションモジュールを適用する。
学習されたアテンションマップを用いてグローバル特徴を変調し、人間-物体相互作用を含む可能性の高い画像領域を強調する。
複数のストリームアーキテクチャに文脈的アテンションモジュールを統合し、人間と物体の検出および相互作用認識を統合的に実行する。
標準のHOIベンチマーク3つで交差エントロピー損失とボックス回帰損失を用いて、エンドツーエンドのフレームワークを訓練する。

実験結果

リサーチクエスチョン

RQ1文脈に配慮した外見特徴は、標準的な外見ベースの手法を超えて、人間-物体相互作用検出の性能を向上させるか？
RQ2インスタンスに依存するアテンション機構は、関係のない背景文脈を効果的にフィルタリングし、相互作用に関連する領域を強調するのにどの程度有効か？
RQ3グローバルおよびローカルな文脈を統合することで、同じ物体や行動を伴う微細な相互作用の区別が向上するか？
RQ4提案手法は、多様なHOI検出ベンチマークで、既存の最先端手法をどの程度上回るか？
RQ5モデルは、レアおよびノンレアな相互作用カテゴリ、および複数同時に発生する相互作用に対しても一般化可能か？

主な発見

V-COCOデータセットでは、mAP roleが47.3に達し、以前の最良手法比で4.4%の相対的向上を示した。
HICO-DETデータセットでは、すべてのカテゴリセットでデフォルト設定下で、最高の既存手法比に9.4%の相対的向上を達成した。
デフォルト設定下で、HICO-DETでmAPスコアが16.24（フル）、11.16（レア）、17.75（ノンレア）を記録し、新たな最先端性能を樹立した。
HCVRDデータセットでは、R@50におけるトップ1およびトップ3の正確度がそれぞれ37.1および51.3を達成し、iCANを3.3点および2.4点上回った。
アブレーションスタディの結果、グローバルおよびローカルな文脈両方が性能向上に顕著に寄与しており、アテンションモジュールがノイズを効果的に低減していることが確認された。
定性的な結果から、本手法のアテンションマップは、iCANなどのベースライン手法と比較して、より明確に相互作用に関連する領域（例：手、物体）に集中していることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。