QUICK REVIEW

[論文レビュー] iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection

Chen Gao, Yuliang Zou|arXiv (Cornell University)|Aug 30, 2018

Multimodal Machine Learning Applications被引用数 180

ひとこと要約

本論文は iCAN を提案する。検出された各インスタンスに条件付けて情報量の多い領域を参照するインスタンス中心の注意モジュールを学習し、V-COCO と HICO-DET で HOI 検出を改善し、最先端の結果を達成する。

ABSTRACT

Recent years have witnessed rapid progress in detecting and recognizing individual object instances. To understand the situation in a scene, however, computers need to recognize how humans interact with surrounding objects. In this paper, we tackle the challenging task of detecting human-object interactions (HOI). Our core idea is that the appearance of a person or an object instance contains informative cues on which relevant parts of an image to attend to for facilitating interaction prediction. To exploit these cues, we propose an instance-centric attention module that learns to dynamically highlight regions in an image conditioned on the appearance of each instance. Such an attention-based network allows us to selectively aggregate features relevant for recognizing HOIs. We validate the efficacy of the proposed network on the Verb in COCO and HICO-DET datasets and show that our approach compares favorably with the state-of-the-arts.

研究の動機と目的

HOI 検出を、場面理解のための人間と周囲の物体との相互作用を認識することとして動機づける。
インスタンス固有の外観を活用して、空間的に注意を払う文脈的注意を導く。
三ストリームネットワーク（人間、物体、ペア）とインスタンス中心の注意モジュールを統合して HOI 予測を改善。
V-COCO と HICO-DET で最先端の性能を示し、アブレーションと誤り分析を提供。

提案手法

インスタンス中心の注意モジュールを導入し、インスタンスの外観に条件付けて特徴量を参照することで文脈特徴を作成する。
インスタンス外観と畳み込み特徴を 512 チャンネル空間に埋め込み、類似度ベースの注意マップを計算する。
注意マップを用いて畳み込み特徴の加重平均として文脈特徴を抽出し、インスタンス外観と連結する。
三つのストリーム（人間、物体、ペア）を用いて s_h^a, s_o^a, s_sp^a のアクションスコアを生成し、S_h,o^a = s_h · s_o · (s_h^a + s_o^a) · s_sp^a として積と和で融合する。
HOI スコア予測のために後期融合バリアント（ストリームスコアの和）と早期融合バリアント（連結特徴を FC 層に通す）を採用する。
各アクションについてシグモイド出力を持つ多ラベル分類問題として学習する。

実験結果

リサーチクエスチョン

RQ1個体の外観に条件付けられたインスタンス中心の注意は、外観/空間情報だけで HOI 予測を改善するか？
RQ2異なる融合戦略（後期/早期）は HOI 検出性能と効率にどのような影響を及ぼすか？
RQ3文脈特徴（インスタンス中心の注意）と他の文脈ベースの手法は HOI の精度にどんな影響を与えるか？
RQ4提案手法 iCAN は V-COCO および HICO-DET データセットで最先端の結果を達成できるか？

主な発見

Method	Feature backbone	AP_role
Gupta and Malik (2015) / Gkioxari et al. (2018)	ResNet-50-FPN	31.8
InteractNet (Gkioxari et al. 2018)	ResNet-50-FPN	40.0
BAR-CNN (Kolesnikov et al. 2018)	Inception-ResNet	41.1
iCAN (ours) w/ late fusion	ResNet-50	44.7
iCAN (ours) w/ early fusion	ResNet-50	45.3
Table 1: V-COCO results
Note: numbers reflect AP_role per paper text

late fusion を用いた iCAN は V-COCO で 44.7 AP_role を達成し、InteractNet の 40.0 AP_role を上回る。
early fusion を用いた iCAN は V-COCO で 45.3 AP_role を達成し、後期融合を上回る。
HICO-DET（デフォルト設定）で iCAN は 14.84 Full、10.45 Rare、16.15 Non Rare を達成；Known Object の更新は 16.26 Full、11.33 Rare、17.73 Non Rare。
従来の最高手法と比較して、iCAN は InteractNet に対する HICO-DET Default Full 結果で相対的に 49.3% の改善を示す。
アブレーション研究は、インスタンス中心の注意が他の文脈特徴（例：ボトムアップ注意、全画像特徴）よりも大きな利益をもたらすことを示している。
定性的結果は、多様な HOI 検出と、関連領域や体の部位をハイライトする解釈可能な注意マップを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。