Skip to main content
QUICK REVIEW

[논문 리뷰] Attentional Pooling for Action Recognition

Rohit Girdhar, Deva Ramanan|arXiv (Cornell University)|2017. 11. 04.
Human Pose and Action Recognition참고 문헌 51인용 수 208
한 줄 요약

이미지별 주의 맵을 학습하여 공간 특징에 가중치를 두는 주의 풀링 모듈을 소개하고, 최소한의 추가 비용으로 이미지와 비디오 전반의 행동 인식을 향상시킵니다. MPII, HMDB51, HICO에서 최첨단 또는 경쟁력 있는 결과를 달성하며, 주의(attention)와 2차 풀링 간의 연결 고리를 분석합니다.

ABSTRACT

We introduce a simple yet surprisingly powerful model to incorporate attention in action recognition and human object interaction tasks. Our proposed attention module can be trained with or without extra supervision, and gives a sizable boost in accuracy while keeping the network size and computational cost nearly the same. It leads to significant improvements over state of the art base architecture on three standard action recognition benchmarks across still images and videos, and establishes new state of the art on MPII dataset with 12.5% relative improvement. We also perform an extensive analysis of our attention module both empirically and analytically. In terms of the latter, we introduce a novel derivation of bottom-up and top-down attention as low-rank approximations of bilinear pooling methods (typically used for fine-grained classification). From this perspective, our attention formulation suggests a novel characterization of action recognition as a fine-grained recognition problem.

연구 동기 및 목표

  • 추가 감독 여부에 관계없이 행동 인식을 위해 학습될 수 있는 주의 메커니즘을 제시한다.
  • 표준 CNN에 주의를 도입하되 계산 비용은 거의 증가시키지 않는다.
  • 주의형 풀링이 저랭크의 이진 풀링 해석과의 정합성을 보이고 벤치마크를 향상시킴을 보인다.
  • 포즈 감독이 주의에 미치는 영향을 분석하며, 특히 비상징적인 프레임이 포함된 비디오 데이터에서의 효과를 다룬다.

제안 방법

  • 주의 풀링을 2차 풀링의 랭크-1 근사로 도출하여 하향식 Saliency 맵 Xb 와 상향식 클래스 특이 맵 Xa 를 가능하게 한다.
  • 주 의 모듈을 CNN의 표준 풀링을 대체하도록 구현하고, h = Xb 및 score = a^T(X^T h) 를 통해 주의 가중 피처를 생성한다.
  • 가중치 Wk 또는 a_k를 통해 클래스 특이적(상향식) 주의를 허용하고, saliency를 위한 클래스 무관한 하향식 구성요소 b를 공유한다.
  • 테스트 시 포즈가 필요하지 않은 포즈 예측 헤드를 추가하여 포즈 정규화된 주의를 모델에 확장한다.
  • 주 의 증가를 극대화하기 위해 기본 네트워크(ResNet-101 대 BN-Inception) 및 입력 해상도 등 아키텍처 선택을 탐구한다.

실험 결과

연구 질문

  • RQ1최소한의 감독으로 학습된 주의 메커니즘이 이미지와 비디오에서의 행동 인식을 개선할 수 있는가?
  • RQ2하향식 주의가 상향식 클래스 특이 주의와 행동 인식에서 어떻게 상호 작용하는가?
  • RQ3포즈 유도 정규화가 주의 및 행동 인식 성능에 미치는 영향은 무엇이며, 특히 비상징적 비디오 프레임에서의 효과는?
  • RQ4주 의 풀링이 2차/바이리니어 풀링과 어떤 관계가 있으며, 랭크-1 근사가 대부분의 이점을 포착할 수 있는가?
  • RQ5주 의가 서로 다른 기본 아키텍처 및 데이터셋(MPII, HICO, HMDB51)에서 일관된 향상을 보이는가?

주요 결과

  • 주 의 풀링 모듈은 베이스라인 전반에서 계산 증가를 거의 없으면서도 상당한 정확도 향상을 제공합니다.
  • MPII에서 포즈 정규화 variant가 최고 성능을 달성하며, 베이스라인 및 기존 방법들에 비해 상당한 이득이 있습니다.
  • HICO에서 이 방법은 전체 이미지 베이스라인 및 대부분의 바운딩 박스 기반 방법을 능가하며 HOI 분류에서 강력함을 입증합니다.
  • HMDB51에서 포즈 정규화 주의는 RGB 단일 프레임 성능을 크게 향상시켜 RGB 전용 방법 중 최첨단 성능을 달성합니다.
  • Xa와 Xb를 통한 랭크-1(저랭크) 주의는 이진/쌍별 주의 메커니즘과 동등하며 주의와 2차 풀링 개념을 연결합니다.
  • 이 방법은 ResNet-101과 더 큰 공간 해상도에서 가장 좋은 성능을 보이며, Inception 계열 백본은 수용 영역 특성으로 인해 이득이 더 작습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.