QUICK REVIEW

[논문 리뷰] Transferable Interactiveness Knowledge for Human-Object Interaction Detection

Yong–Lu Li, Siyuan Zhou|arXiv (Cornell University)|2018. 11. 20.

Multimodal Machine Learning Applications인용 수 29

한 줄 요약

이 논문은 인간-객체 상호작용(HOI) 검출을 위한 이식 가능한 상호작용 지식 프레임워크를 제안한다. 이는 두 단계 접근 방식을 사용한다: 먼저 상호작용 네트워크가 비상호작용 인간-객체 쌍을 비상호작용 억제(NIS)를 통해 억제하고, 그 다음 남은 쌍들에 대해 HOI 분류를 수행한다. 이 방법은 HICO-DET 및 V-COCO에서 최신 기술 수준(SOTA) 성능을 달성하며, 데이터셋 간에 학습된 이식 가능한 상호작용 지식을 통해 mAP가 최대 4.06 포인트 향상된다.

ABSTRACT

Human-Object Interaction (HOI) Detection is an important problem to understand how humans interact with objects. In this paper, we explore Interactiveness Knowledge which indicates whether human and object interact with each other or not. We found that interactiveness knowledge can be learned across HOI datasets, regardless of HOI category settings. Our core idea is to exploit an Interactiveness Network to learn the general interactiveness knowledge from multiple HOI datasets and perform Non-Interaction Suppression before HOI classification in inference. On account of the generalization of interactiveness, interactiveness network is a transferable knowledge learner and can be cooperated with any HOI detection models to achieve desirable results. We extensively evaluate the proposed method on HICO-DET and V-COCO datasets. Our framework outperforms state-of-the-art HOI detection results by a great margin, verifying its efficacy and flexibility. Code is available at https://github.com/DirtyHarryLYL/Transferable-Interactiveness-Network.

연구 동기 및 목표

일괄적 HOI 검출에서 높은 거짓 양성률 문제를 해결하기 위해 상호작용성을 학습 가능한, 이식 가능한 사전 지식으로 명시적으로 모델링하고자 한다.
검출 모델을 압도하는 비상호작용 쌍의 수를 줄여 분류 효율성과 정확도를 향상시키고자 한다.
모든 HOI 검출 모델과 통합 가능한 일반 목적의 상호작용 네트워크를 개발하고자 한다. 이는 HOI 카테고리 설정과 무관하게 적용 가능하다.
상호작용 지식이 데이터셋 간에 일반화됨을 입증하고자 하며, HOI 검출에서 전이 학습의 이점을 제공한다.

제안 방법

다양한 HOI 데이터셋에서 상호작용 네트워크(P)를 학습하여 인간-객체 쌍이 상호작용하는지 여부를 분류하고, 일반적인 상호작용 지식을 학습한다.
프레임워크는 두 단계 추론 과정을 사용한다: 먼저 비상호작용 억제(NIS)를 통해 상호작용하지 않는 쌍을 상호작용 네트워크를 이용해 걸러낸다.
상호작용 네트워크는 HOI 검출 모델(C)과 함께 공동으로 훈련되며, 상호작용 예측과 HOI 분류 간의 일致성을 강제하는 계층적 손실을 사용한다.
세 가지 스트림—외관(H), 객체(O), 공간-자세(S-P)—을 사용하여 다중 모odal 특징을 추출하여 상호작용 식별 성능를 향상시킨다.
저품질 인스턴스 억제(LIS) 손실을 적용하여 저신뢰도 객체 검출을 가중치를 낮춰 노이즈 있는 제안에 대한 강건성을 향상시킨다.
이 방법은 모듈식이며, 기존의 어떤 HOI 검출 모델과도 통합 가능하여 아키텍처 변경 없이 성능 향상을 이룬다.

실험 결과

연구 질문

RQ1다른 HOI 데이터셋 간에 상호작용 지식—즉, 인간-객체 쌍이 상호작용하는지 여부를 나타내는 지식—을 학습하고 이식할 수 있는가?
RQ2별도의 네트워크를 통해 상호작용성을 명시적으로 모델링하면, 종단간 일괄적 방법에 비해 HOI 검출에서 거짓 양성률을 줄일 수 있는가?
RQ3비상호작용 억제(NIS)가 분류 이전에 비상호작용 쌍을 걸러내어 HOI 검출 성능을 얼마나 향상시키는가?
RQ4상호작용 지식의 이식 가능성은 서로 다른 HOI 카테고리 세트로 훈련된 HOI 검출 모델에 어떤 이점을 제공하는가?
RQ5외관, 객체, 공간-자세 스트림의 각각의 기여도는 상호작용 네트워크 성능에 어떤 영향을 미치는가?

주요 결과

제안된 방법은 HICO-DET에서 최신 기술 수준 성능을 달성하며, 이전 SOTA 방법 대비 세 가지 기본 카테고리 세트에서 mAP가 각각 2.38, 3.06, 2.17 포인트 향상되었다.
V-COCO 데이터셋에서는 기본 설정과 전이 학습 설정에서 각각 mAP가 4.0 및 3.4 포인트 향상되었다.
비상호작용 억제(NIS)는 비상호작용 쌍의 수를 최대 73.62%까지 감소시켜 HOI 분류의 탐색 공간을 크게 줄였다.
제거 실험 결과, NIS를 제거하면 HICO-DET에서 mAP가 47.8에서 46.2로 감소하여, NIS가 거짓 양성률을 줄이는 데 핵심적인 역할을 함을 확인했다.
공간-자세 스트림이 상호작용 예측에 가장 큰 기여를 하였지만, 세 가지 스트림(H, O, S-P)을 모두 조합할 경우 가장 우수한 성능를 기록했다.
상호작용 네트워크는 이식 가능하다: 한 데이터셋에서 사전 훈련한 후 다른 데이터셋에 적용해도 검출 정확도 향상이 이루어지며, 카테고리에 특화된 패턴을 초월한 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.