QUICK REVIEW

[논문 리뷰] HOI Analysis: Integrating and Decomposing Human-Object Interaction

Yong–Lu Li, Xinpeng Liu|arXiv (Cornell University)|2020. 10. 30.

Multimodal Machine Learning Applications참고 문헌 52인용 수 64

한 줄 요약

본 논문은 Integration-Decomposition Network(IDN)와 함께 HOI 분석을 제안하며, 인간 및 객체 특징을 분해하고 통합하여 변환 함수 공간에서 동사를 표현하고, 벤치마크에서 HOI 탐지의 최첨단 성능을 달성한다.

ABSTRACT

Human-Object Interaction (HOI) consists of human, object and implicit interaction/verb. Different from previous methods that directly map pixels to HOI semantics, we propose a novel perspective for HOI learning in an analytical manner. In analogy to Harmonic Analysis, whose goal is to study how to represent the signals with the superposition of basic waves, we propose the HOI Analysis. We argue that coherent HOI can be decomposed into isolated human and object. Meanwhile, isolated human and object can also be integrated into coherent HOI again. Moreover, transformations between human-object pairs with the same HOI can also be easier approached with integration and decomposition. As a result, the implicit verb will be represented in the transformation function space. In light of this, we propose an Integration-Decomposition Network (IDN) to implement the above transformations and achieve state-of-the-art performance on widely-used HOI detection benchmarks. Code is available at https://github.com/DirtyHarryLYL/HAKE-Action-Torch/tree/IDN-(Integrating-Decomposing-Network).

연구 동기 및 목표

PIXEL-에서 의미 매핑을 넘어서 HOI의 내부 구조를 분석하여 HOI에 대한 새로운 관점을 제시한다.
인간 및 객체 특징을 통합하고 분해하여 동사를 인코딩하는 잠재 공간 변환 프레임워크를 제안한다.
변환 함수 공간에서 동사를 학습하여 쌍 간 변화(inter-pair transformations)와 희귀한 HOI 처리를 개선한다.
표준 벤치마크에서 최첨단 HOI 탐지 성능을 입증하고 탐지기 변화에 대한 로버스트성을 보인다.

제안 방법

HOI를 고립된 인간/객체 특징 간의 변환과 일관된 HOI 임베딩으로 표현한다.
특징을 압축하고 동사 특화 통합 T_I(·) 및 분해 T_D(·) 매핑을 학습하기 위해 오토인코더를 사용한다.
동일 HOI 내에서 유사한 인간/객체 인스턴스를 교환하여 움직임 전달 없이 동사 공간을 학습하도록 쌍 간 변환을 모델링한다.
변환 공간에서 통합 유효성, 분해 유효성, 인터랙티브니스 유효성을 강제하는 목표로 학습한다.
동사 특이적 통합 특징에 대한 거리 비교와 다중 동사 신호의 결합을 통해 HOI를 탐지하기 위해 통합 및 분해를 적용한다.
여러 동사에 대해 효율적이고 병렬 가능 학습을 가능하게 하기 위해 모든 변환을 잠재 공간에서 수행한다.

실험 결과

연구 질문

RQ1HOI를 고립된 요소들과 전체 상호작용 간의 구조화된 변환으로 어떻게 표현할 수 있는가?
RQ2잠재 공간에서의 통합과 분해가 직접적인 픽셀-대-동사 매핑보다 동사 의미를 더 잘 포착할 수 있는가?
RQ3HOI 쌍 간에 유사한 인스턴스를 교환하는 것이 공유된 동사 표현을 발견하고 희귀한 HOI의 학습을 개선하는가?
RQ4동사 표현이 변환 함수 공간에서 효과적으로 학습되어 견고한 HOI 탐지에 사용될 수 있는가?

주요 결과

Dataset / Setting	Detector	Full	Rare	Non-Rare
HICO-DET Default COCO (IDN)	COCO	23.36	22.47	23.63
HICO-DET Default COCO Known Object (IDN)	COCO	26.43	25.01	26.85
HICO-DET GT Boxes (IDN)	GT	43.98	40.27	45.09
V-COCO S1 (IDN)	N/A	53.3
V-COCO S2 (IDN)	N/A	60.3

IDN은 COCO 탐지기와 함께 HICO-DET에서 최첨단 결과를 달성하여 Default Full 세트에서 23.36 mAP에 도달한다.
IDN은 HICO-DET에서 미세조정된 탐지기로 성능을 크게 향상시켜 Default Full에서 26.29 mAP에 도달한다.
GT 박스에서 IDN은 기존 방법들에 비해 큰 차이를 보이며 HICO-DET의 Full에서 43.98 mAP를 달성한다.
IDN은 V-COCO Scenario 1에서 53.3 AP_role, Scenario 2에서 60.3 AP_role을 달성하며 기존 방법을 능가한다.
삭제 실험으로 통합, 분해, IPT, AE 구성요소 각각이 성능 향상에 기여함을 보인다.
해당 방법은 단일 GPU에서 10.04 FPS로 작동하여 우수한 효율성과 확장성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.