QUICK REVIEW

[논문 리뷰] iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection

Chen Gao, Yuliang Zou|arXiv (Cornell University)|2018. 08. 30.

Multimodal Machine Learning Applications인용 수 180

한 줄 요약

논문은 iCAN을 제안하는데, 이는 탐지된 각 인스턴스에 조건화된 정보를 바탕으로 유용한 영역에 주의를 기울이는 인스턴스 중심 주의 모듈로, V-COCO와 HICO-DET에서 HOI 탐지를 향상시키고 최첨단 결과를 달성합니다.

ABSTRACT

Recent years have witnessed rapid progress in detecting and recognizing individual object instances. To understand the situation in a scene, however, computers need to recognize how humans interact with surrounding objects. In this paper, we tackle the challenging task of detecting human-object interactions (HOI). Our core idea is that the appearance of a person or an object instance contains informative cues on which relevant parts of an image to attend to for facilitating interaction prediction. To exploit these cues, we propose an instance-centric attention module that learns to dynamically highlight regions in an image conditioned on the appearance of each instance. Such an attention-based network allows us to selectively aggregate features relevant for recognizing HOIs. We validate the efficacy of the proposed network on the Verb in COCO and HICO-DET datasets and show that our approach compares favorably with the state-of-the-arts.

연구 동기 및 목표

씬 이해를 위한 인간과 주변 물체 간의 상호 작용 인식으로 HOI 탐지 동기부여
개체별 외관 정보를 활용해 공간적으로 민감한 맥락 주의를 이끈다
세 스트림 네트워크(인간, 물체, 페어와이즈)와 인스턴스 중심 주의 모듈을 통합해 HOI 예측을 향상
V-COCO와 HICO-DET에서 최첨단 성능을 입증하고 어블레이션 및 오류 분석 제공

제안 방법

인스턴스의 외관에 조건화된 영역에 주의를 기울여 컨텍스트 피처를 생성하는 인스턴스 중심 주의 모듈을 도입한다
인스턴스 외관과 컨볼루셔널 피처를 512채널 공간으로 임베딩해 유사도 기반 주의 맵을 계산한다
주의 맵을 사용해 컨볼루셔널 피처의 가중 평균으로 컨텍스트 피처를 추출하고 이를 인스턴스 외관과 연결한다
세 스트림(휴먼, 오브젝트, 페어와이즈)을 사용해 작용 점수 s_h^a, s_o^a, s_sp^a를 생성한 후 곱셈/덧셈으로 S_h,o^a = s_h · s_o · (s_h^a + s_o^a) · s_sp^a로 융합한다
HOI 점수 예측을 위한 지연 융합 변형(스트림 점수의 합)과 조기 융합 변형(연결된 피처를 FC 층에 입력)을 채택한다
다중 레이블 분류 문제로 각 동작에 대해 sigmoid 출력으로 학습한다

실험 결과

연구 질문

RQ1사람/물체 외관에 조건화된 인스턴스 중심 주의가 외관/공간 단서 이상의 HOI 예측 향상을 제공하는가?
RQ2다른 융합 전략(지연 대 조기)이 HOI 탐지 성능과 효율성에 어떤 영향을 미치는가?
RQ3컨텍스트 피처(인스턴스 중심 주의)와 다른 컨텍스추얼 베이스라인 간의 차이가 HOI 정확도에 미치는 영향은 무엇인가?
RQ4제안된 iCAN 프레임워크가 V-COCO 및 HICO-DET 데이터셋에서 최첨단 결과를 달성할 수 있는가?

주요 결과

Method	Feature backbone	AP_role
Gupta and Malik (2015) / Gkioxari et al. (2018)	ResNet-50-FPN	31.8
InteractNet (Gkioxari et al. 2018)	ResNet-50-FPN	40.0
BAR-CNN (Kolesnikov et al. 2018)	Inception-ResNet	41.1
iCAN (ours) w/ late fusion	ResNet-50	44.7
iCAN (ours) w/ early fusion	ResNet-50	45.3
Table 1: V-COCO results
Note: numbers reflect AP_role per paper text

iCAN의 지연 융합은 V-COCO에서 44.7 AP_role를 달성하며 InteractNet의 40.0 AP_role를 능가한다
iCAN의 조기 융합은 V-COCO에서 45.3 AP_role로 지연 융합보다 개선된다
HICO-DET(기본 설정)에서 iCAN은 14.84 Full, 10.45 Rare, 16.15 Non Rare를 달성; Known Object 업데이트는 16.26 Full, 11.33 Rare, 17.73 Non Rare이다
이전 최고 방법과 비교할 때 iCAN은 InteractNet 대비 HICO-DET Default Full 결과에서 상대적 49.3% 향상을 보인다
인스턴스 중심 주의가 다른 맥락 피처(예: 바텀-업 주의, 전체 이미지 피처)보다 더 큰 이득을 제공하는 어블레이션 결과가 나타난다
정성적 결과는 다양한 HOI 탐지와 관련 영역 및 신체 부위를 강조하는 해석 가능한 주의 맵을 보여준다

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.