QUICK REVIEW

[논문 리뷰] Learning Human-Object Interactions by Graph Parsing Neural Networks

Siyuan Qi, Wenguan Wang|arXiv (Cornell University)|2018. 08. 23.

Multimodal Machine Learning Applications참고 문헌 39인용 수 59

한 줄 요약

GPNN은 해석 그래프를 학습하고 엔드-투-엔드 메시지 전달을 수행하여 이미지와 비디오에서 인간-물체 상호작용(HOI)을 탐지하고 인식하며 HOI 벤치마크에서 최첨단을 능가합니다. 정적 및 시간적 설정 모두에서 HOI 작업을 위해 그래프 구조를 공동으로 추론하고 메시지를 전달합니다.

ABSTRACT

This paper addresses the task of detecting and recognizing human-object interactions (HOI) in images and videos. We introduce the Graph Parsing Neural Network (GPNN), a framework that incorporates structural knowledge while being differentiable end-to-end. For a given scene, GPNN infers a parse graph that includes i) the HOI graph structure represented by an adjacency matrix, and ii) the node labels. Within a message passing inference framework, GPNN iteratively computes the adjacency matrices and node labels. We extensively evaluate our model on three HOI detection benchmarks on images and videos: HICO-DET, V-COCO, and CAD-120 datasets. Our approach significantly outperforms state-of-art methods, verifying that GPNN is scalable to large datasets and applies to spatial-temporal settings. The code is available at https://github.com/SiyuanQi/gpnn.

연구 동기 및 목표

HOI 구조를 그래프로 명시적으로 표현하는 단일화되고 엔드-투-엔드 프레임워크를 동기 부여합니다.
그래프 파싱 신경망을 미분가능하게 개발하여 파싱 그래프를 추론하고 HOI 레이블링을 수행합니다.
GPNN의 대규모 HOI 데이터셋으로의 확장성 및 공간-시간 HOI 작업에의 적용 가능성을 입증합니다.

제안 방법

HOI를 사람 노드와 물체 노드가 있는 완전 그래프로 표현하고 파싱 그래프 도출을 위한 학습 가능한 인접 행렬을 학습합니다.
Link, Message, Update, Readout의 네 모듈식 함수를 정의하여 엔드-투-엔드 미분가능한 그래프 파싱 및 belief-propagation과 같은 추론을 수행합니다.
S 단계에 걸쳐 인접 및 노드 상태를 반복적으로 업데이트하여 그래프 구조와 HOI 레이블을 공동으로 학습합니다.
1x1 컨볼루션으로 A를 생성하는 신경망을 사용하여 Link를 구현합니다; 시간 그래프에는 convLSTM을 사용합니다.
GRU 기반 업데이트와 HOI 동작/객체 레이블을 생성하는 읽어내기 네트워크를 사용합니다.
인접 구조(L1) 손실 및 노드 출력 멀티레이블 힌지 손실을 포함한 손실로 학습합니다.

실험 결과

연구 질문

RQ1GPNN이 파싱 그래프 구조를 학습하고 HOI 레이블링을 미분가능하고 엔드-투-엔드 방식으로 수행할 수 있습니까?
RQ2적응형 그래프 구조를 학습하는 것이 고정 그래프 또는 순수 신경망 기반 베이스라인보다 HOI 탐지 및 인식 성능을 향상시키나요?
RQ3프레임워크가 대규모 HOI 데이터셋에 확장 가능하고 공간-시간 HOI 작업에 적용 가능한가요?
RQ4여러 메시지 전달 단계의 반복적 그래프 학습이 성능에 어떤 영향을 미치나요?
RQ5학습된 그래프(adjacency)에 대한 감독이 있는 경우와 고정되거나 규제되지 않은 그래프의 영향은 무엇인가요?

주요 결과

GPNN은 이미지에서 HOI 탐지(HICO-DET 및 V-COCO) 및 비디오에서 HOI 인식/예측(CAD-120)에서 베이스라인보다 상당한 향상을 달성합니다.
HICO-DET에서 GPNN은 전체, 희귀, 비희귀 카테고리 전반에 걸쳐 이전 방법들보다 주목할 만한 이점을 달성합니다.
V-COCO에서 GPNN은 Set 1, Set 2 및 평균 mAP에서 베이스라인을 능가합니다.
CAD-120에서 GPNN은 하위 활동 및 객체 활용도 탐지 F1 점수를 더 높게 달성하고 ATCRF 및 S-RNN보다 하위 활동을 더 잘 예측합니다.
발생 연구를 통해 그래프 구조를 학습하고, 메시지 전달과 결합된 파싱 및 반복적 정제가 모두 성능 향상에 기여한다는 것을 보여줍니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.