[논문 리뷰] Learning Human-Object Interactions by Graph Parsing Neural Networks
GPNN은 해석 그래프를 학습하고 엔드-투-엔드 메시지 전달을 수행하여 이미지와 비디오에서 인간-물체 상호작용(HOI)을 탐지하고 인식하며 HOI 벤치마크에서 최첨단을 능가합니다. 정적 및 시간적 설정 모두에서 HOI 작업을 위해 그래프 구조를 공동으로 추론하고 메시지를 전달합니다.
This paper addresses the task of detecting and recognizing human-object interactions (HOI) in images and videos. We introduce the Graph Parsing Neural Network (GPNN), a framework that incorporates structural knowledge while being differentiable end-to-end. For a given scene, GPNN infers a parse graph that includes i) the HOI graph structure represented by an adjacency matrix, and ii) the node labels. Within a message passing inference framework, GPNN iteratively computes the adjacency matrices and node labels. We extensively evaluate our model on three HOI detection benchmarks on images and videos: HICO-DET, V-COCO, and CAD-120 datasets. Our approach significantly outperforms state-of-art methods, verifying that GPNN is scalable to large datasets and applies to spatial-temporal settings. The code is available at https://github.com/SiyuanQi/gpnn.
연구 동기 및 목표
- HOI 구조를 그래프로 명시적으로 표현하는 단일화되고 엔드-투-엔드 프레임워크를 동기 부여합니다.
- 그래프 파싱 신경망을 미분가능하게 개발하여 파싱 그래프를 추론하고 HOI 레이블링을 수행합니다.
- GPNN의 대규모 HOI 데이터셋으로의 확장성 및 공간-시간 HOI 작업에의 적용 가능성을 입증합니다.
제안 방법
- HOI를 사람 노드와 물체 노드가 있는 완전 그래프로 표현하고 파싱 그래프 도출을 위한 학습 가능한 인접 행렬을 학습합니다.
- Link, Message, Update, Readout의 네 모듈식 함수를 정의하여 엔드-투-엔드 미분가능한 그래프 파싱 및 belief-propagation과 같은 추론을 수행합니다.
- S 단계에 걸쳐 인접 및 노드 상태를 반복적으로 업데이트하여 그래프 구조와 HOI 레이블을 공동으로 학습합니다.
- 1x1 컨볼루션으로 A를 생성하는 신경망을 사용하여 Link를 구현합니다; 시간 그래프에는 convLSTM을 사용합니다.
- GRU 기반 업데이트와 HOI 동작/객체 레이블을 생성하는 읽어내기 네트워크를 사용합니다.
- 인접 구조(L1) 손실 및 노드 출력 멀티레이블 힌지 손실을 포함한 손실로 학습합니다.
실험 결과
연구 질문
- RQ1GPNN이 파싱 그래프 구조를 학습하고 HOI 레이블링을 미분가능하고 엔드-투-엔드 방식으로 수행할 수 있습니까?
- RQ2적응형 그래프 구조를 학습하는 것이 고정 그래프 또는 순수 신경망 기반 베이스라인보다 HOI 탐지 및 인식 성능을 향상시키나요?
- RQ3프레임워크가 대규모 HOI 데이터셋에 확장 가능하고 공간-시간 HOI 작업에 적용 가능한가요?
- RQ4여러 메시지 전달 단계의 반복적 그래프 학습이 성능에 어떤 영향을 미치나요?
- RQ5학습된 그래프(adjacency)에 대한 감독이 있는 경우와 고정되거나 규제되지 않은 그래프의 영향은 무엇인가요?
주요 결과
- GPNN은 이미지에서 HOI 탐지(HICO-DET 및 V-COCO) 및 비디오에서 HOI 인식/예측(CAD-120)에서 베이스라인보다 상당한 향상을 달성합니다.
- HICO-DET에서 GPNN은 전체, 희귀, 비희귀 카테고리 전반에 걸쳐 이전 방법들보다 주목할 만한 이점을 달성합니다.
- V-COCO에서 GPNN은 Set 1, Set 2 및 평균 mAP에서 베이스라인을 능가합니다.
- CAD-120에서 GPNN은 하위 활동 및 객체 활용도 탐지 F1 점수를 더 높게 달성하고 ATCRF 및 S-RNN보다 하위 활동을 더 잘 예측합니다.
- 발생 연구를 통해 그래프 구조를 학습하고, 메시지 전달과 결합된 파싱 및 반복적 정제가 모두 성능 향상에 기여한다는 것을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.