QUICK REVIEW

[논문 리뷰] Graph Convolutional Networks for Temporal Action Localization

Runhao Zeng, Wenbing Huang|arXiv (Cornell University)|2019. 09. 07.

Human Pose and Action Recognition참고 문헌 48인용 수 48

한 줄 요약

논문은 두 가지 유형의 엣지와 두 개의 분리된 GCN을 사용하여 행동 제안 간의 관계를 모델링하는 제안 그래프 모델(P-GCN)을 제안하고, 이를 통해 시간적 행동 로컬라이제이션을 향상시키며 THUMOS14에서 최첨단 결과를, ActivityNet v1.3에서 경쟁력 있는 결과를 달성한다.

ABSTRACT

Most state-of-the-art action localization systems process each action proposal individually, without explicitly exploiting their relations during learning. However, the relations between proposals actually play an important role in action localization, since a meaningful action always consists of multiple proposals in a video. In this paper, we propose to exploit the proposal-proposal relations using Graph Convolutional Networks (GCNs). First, we construct an action proposal graph, where each proposal is represented as a node and their relations between two proposals as an edge. Here, we use two types of relations, one for capturing the context information for each proposal and the other one for characterizing the correlations between distinct actions. Then we apply the GCNs over the graph to model the relations among different proposals and learn powerful representations for the action classification and localization. Experimental results show that our approach significantly outperforms the state-of-the-art on THUMOS14 (49.1% versus 42.8%). Moreover, augmentation experiments on ActivityNet also verify the efficacy of modeling action proposal relationships. Codes are available at https://github.com/Alvin-Zeng/PGCN.

연구 동기 및 목표

시간적 행동 로컬라이제이션에서 제안-제안 관계를 활용해 분류와 경계 회귀를 개선하려고 한다.
제안 간의 맥락적 및 주변 관계를 캡처하는 제안 그래프를 도입한다.
행동 범주, 경계, 완전성을 공동으로 예측하기 위한 이중 분기 GCN 프레임워크를 개발한다.
다수의 제안에 확장 가능하도록 이웃 샘플링을 사용하는 효율적 학습 전략을 제안한다.
ABLATION 및 비교를 통해 THUMOS14와 ActivityNet v1.3에서 효과를 입증한다.

제안 방법

그래프의 노드로서 action proposals를 표현하고 맥락 엣지(높은 tIoU)와 주변 엣지(가까우나 서로 다른 제안)를 통해 연결한다.
이웃 제안들 간의 정보를 전파하고 제안 특징을 향상시키기 위해 K-layer GCN을 적용한다.
분류를 위한 GCN1과 경계 회귀 및 완전성 예측을 위한 GCN2의 두 개의 분리된 GCN을 사용한다.
각 제안 특징을 마지막 층 출력과 원래 특징을 연결(concatenate)하여 확장하고 분류 및 회귀를 위한 두 개의 FC 헤드를 사용한다.
RGB와 광학 플로우의 이중 스트림 특징 세트와 BSN-생성 제안을 사용하고, SAGE 스타일의 이웃 샘플링으로 계산을 줄인다.
연결 가중치는 제안 특징 간의 코사인 유사도(선택적 학습 가능한 임베딩 포함)로 정의한다.
분류를 위한 교차 엔트로피, 완전성에 대한 힌지 손실, 경계 회귀에 대한 스무스-L1 손실로 최적화한다.

실험 결과

연구 질문

RQ1그래프를 통한 제안-제안 관계 모델링이 제안별 예측을 넘어 시간적 행동 로컬라이제이션을 향상시킬 수 있는가?
RQ2어떤 엣지 구성(맥락적 및 주변)이 제안 간 관계를 가장 잘 포착해 로컬라이제이션 성능을 높이는가?
RQ3분류와 경계 회귀를 위한 두 개의 분리된 GCN을 사용하는 것이 하나의 공유 GCN보다 더 나은가?
RQ4이웃 샘플링(SAGE)이 정확도를 해치지 않으면서 어떻게 확장 가능한 학습을 가능하게 하는가?
RQ5다양한 백본 및 제안 유형에서 개선 효과가 일관적인가?

주요 결과

P-GCN은 THUMOS14에서 tIoU=0.5에서 49.1% mAP를 달성하여 이전 최고치를 6.3ppp 향상시켰다.
ActivityNet v1.3에서 P-GCN 변형은 tIoU=0.5에서 42.90% mAP 및 0.5–0.95 범위의 평균 mAP 2.47%를 달성한다(P-GCN*은 외부 라벨과 함께 48.26/33.16/3.27/31.11에 도달).
분류를 위한 GCN 하나와 회귀를 위한 GCN 하나의 두 GCN이 구성에서 MLP나 단일 GCN을 사용하는 구성보다 일관되게 우수하여 제안 간의 관계 모델링이 카테고리와 경계 모두에 가치를 나타냄을 보여준다.
맥락 엣지와 주변 엣지 각각이 성능에 기여하며, 어느 한 유형을 제거하면 mAP가 저하된다.
N_s=4의 이웃 샘플링은 훈련 시간을 크게 감소시키면서 더 나은 또는 비교 가능한 mAP를 제공한다(반복당 76% 감소).
해당 방법은 백본(I3D 특징과 BSN 제안, TAG 제안, 2D 특징 등)에서 견고하며 외부 행동 라벨이 없어도 효과적이며, 외부 라벨은 성능을 높일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.