[논문 리뷰] iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection
논문은 iCAN을 제안하는데, 이는 탐지된 각 인스턴스에 조건화된 정보를 바탕으로 유용한 영역에 주의를 기울이는 인스턴스 중심 주의 모듈로, V-COCO와 HICO-DET에서 HOI 탐지를 향상시키고 최첨단 결과를 달성합니다.
Recent years have witnessed rapid progress in detecting and recognizing individual object instances. To understand the situation in a scene, however, computers need to recognize how humans interact with surrounding objects. In this paper, we tackle the challenging task of detecting human-object interactions (HOI). Our core idea is that the appearance of a person or an object instance contains informative cues on which relevant parts of an image to attend to for facilitating interaction prediction. To exploit these cues, we propose an instance-centric attention module that learns to dynamically highlight regions in an image conditioned on the appearance of each instance. Such an attention-based network allows us to selectively aggregate features relevant for recognizing HOIs. We validate the efficacy of the proposed network on the Verb in COCO and HICO-DET datasets and show that our approach compares favorably with the state-of-the-arts.
연구 동기 및 목표
- 씬 이해를 위한 인간과 주변 물체 간의 상호 작용 인식으로 HOI 탐지 동기부여
- 개체별 외관 정보를 활용해 공간적으로 민감한 맥락 주의를 이끈다
- 세 스트림 네트워크(인간, 물체, 페어와이즈)와 인스턴스 중심 주의 모듈을 통합해 HOI 예측을 향상
- V-COCO와 HICO-DET에서 최첨단 성능을 입증하고 어블레이션 및 오류 분석 제공
제안 방법
- 인스턴스의 외관에 조건화된 영역에 주의를 기울여 컨텍스트 피처를 생성하는 인스턴스 중심 주의 모듈을 도입한다
- 인스턴스 외관과 컨볼루셔널 피처를 512채널 공간으로 임베딩해 유사도 기반 주의 맵을 계산한다
- 주의 맵을 사용해 컨볼루셔널 피처의 가중 평균으로 컨텍스트 피처를 추출하고 이를 인스턴스 외관과 연결한다
- 세 스트림(휴먼, 오브젝트, 페어와이즈)을 사용해 작용 점수 s_h^a, s_o^a, s_sp^a를 생성한 후 곱셈/덧셈으로 S_h,o^a = s_h · s_o · (s_h^a + s_o^a) · s_sp^a로 융합한다
- HOI 점수 예측을 위한 지연 융합 변형(스트림 점수의 합)과 조기 융합 변형(연결된 피처를 FC 층에 입력)을 채택한다
- 다중 레이블 분류 문제로 각 동작에 대해 sigmoid 출력으로 학습한다
실험 결과
연구 질문
- RQ1사람/물체 외관에 조건화된 인스턴스 중심 주의가 외관/공간 단서 이상의 HOI 예측 향상을 제공하는가?
- RQ2다른 융합 전략(지연 대 조기)이 HOI 탐지 성능과 효율성에 어떤 영향을 미치는가?
- RQ3컨텍스트 피처(인스턴스 중심 주의)와 다른 컨텍스추얼 베이스라인 간의 차이가 HOI 정확도에 미치는 영향은 무엇인가?
- RQ4제안된 iCAN 프레임워크가 V-COCO 및 HICO-DET 데이터셋에서 최첨단 결과를 달성할 수 있는가?
주요 결과
| Method | Feature backbone | AP_role |
|---|---|---|
| Gupta and Malik (2015) / Gkioxari et al. (2018) | ResNet-50-FPN | 31.8 |
| InteractNet (Gkioxari et al. 2018) | ResNet-50-FPN | 40.0 |
| BAR-CNN (Kolesnikov et al. 2018) | Inception-ResNet | 41.1 |
| iCAN (ours) w/ late fusion | ResNet-50 | 44.7 |
| iCAN (ours) w/ early fusion | ResNet-50 | 45.3 |
| Table 1: V-COCO results | ||
| Note: numbers reflect AP_role per paper text |
- iCAN의 지연 융합은 V-COCO에서 44.7 AP_role를 달성하며 InteractNet의 40.0 AP_role를 능가한다
- iCAN의 조기 융합은 V-COCO에서 45.3 AP_role로 지연 융합보다 개선된다
- HICO-DET(기본 설정)에서 iCAN은 14.84 Full, 10.45 Rare, 16.15 Non Rare를 달성; Known Object 업데이트는 16.26 Full, 11.33 Rare, 17.73 Non Rare이다
- 이전 최고 방법과 비교할 때 iCAN은 InteractNet 대비 HICO-DET Default Full 결과에서 상대적 49.3% 향상을 보인다
- 인스턴스 중심 주의가 다른 맥락 피처(예: 바텀-업 주의, 전체 이미지 피처)보다 더 큰 이득을 제공하는 어블레이션 결과가 나타난다
- 정성적 결과는 다양한 HOI 탐지와 관련 영역 및 신체 부위를 강조하는 해석 가능한 주의 맵을 보여준다
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.