QUICK REVIEW

[논문 리뷰] Few-shot Action Recognition via Improved Attention with Self-supervision

Hongguang Zhang, Li Zhang|arXiv (Cornell University)|2020. 01. 12.

Human Pose and Action Recognition참고 문헌 25인용 수 3

한 줄 요약

이 논문은 C3D 기반 인코더와 순열 불변 풀링, 그리고 자기지도형 시공간 주의 메커니즘을 사용하여 다양한 동작 길이와 시간 분포 이탈에 대해 강건한 소수 샘플 비디오 행동 인식 방법을 제안한다. 자기지도 학습을 통해 블록 순서의 순열에 대해 불변이 되도록 주의 메커니즘을 훈련시킴으로써, 모델은 HMDB51, UCF101, 그리고 miniImageNet-101 (miniMIT)에서 최신 기술 성능을 달성한다.

ABSTRACT

Many few-shot learning models focus on recognising images. In contrast, we tackle a challenging task of few-shot action recognition from videos. We build on a C3D encoder for spatio-temporal video blocks to capture short-range action patterns. Such encoded blocks are aggregated by permutation-invariant pooling to make our approach robust to varying action lengths and long-range temporal dependencies whose patterns are unlikely to repeat even in clips of the same class. Subsequently, the pooled representations are combined into simple relation descriptors which encode so-called query and support clips. Finally, relation descriptors are fed to the comparator with the goal of similarity learning between query and support clips. Importantly, to re-weight block contributions during pooling, we exploit spatial and temporal attention modules and self-supervision. In naturalistic clips (of the same class) there exists a temporal distribution shift--the locations of discriminative temporal action hotspots vary. Thus, we permute blocks of a clip and align the resulting attention regions with similarly permuted attention regions of non-permuted clip to train the attention mechanism invariant to block (and thus long-term hotspot) permutations. Our method outperforms the state of the art on the HMDB51, UCF101, miniMIT datasets.

연구 동기 및 목표

행동 클래스당 레이블이 극도로 제한된 소수 샘플 비디오 행동 인식 문제에 대응한다.
자연스러운 비디오 클립에서 행동의 특징적인 지역이 위치가 달라지는 다양한 동작 길이와 시간 분포 이탈 문제를 해결한다.
쿼리 및 서포트 클립의 표현 학습을 향상시키기 위해 풀링된 시공간 특징을 조합하여 관계 기술자(relation descriptor)를 구성한다.
자기지도형 대비 학습을 통해 주의 메커니즘을 블록 순서에 대해 불변으로 만들며, 순서에 의존하지 않는 성능을 향상시킨다.
기준 소수 샘플 비디오 행동 인식 데이터셋에서 최신 기술 성능을 달성한다.

제안 방법

비디오 클립에서 시공간 특징을 추출하기 위해 C3D 인코더를 사용하여 짧은 범위의 행동 패턴을 캡처한다.
다양한 동작 지속 시간과 장거리 의존성에 강건한 모델을 만들기 위해 인코딩된 비디오 블록을 순열 불변 풀링으로 집계한다.
풀링 중 블록 기여도를 재가중하기 위해 공간 및 시간 주의 모듈을 도입하여 특징적인 영역에 집중한다.
비디오 클립 내 블록을 순서 뒤바꿈하고, 순열된 클립과 원본 클립 간의 주의 맵을 정렬함으로써 주의 메커니즘을 자기지도 학습으로 훈련시킨다.
쿼리 및 서포트 클립 표현을 조합하여 유사도 학습을 가능하게 하는 관계 기술자(relation descriptor)를 구성한다.
학습된 관계 기술자를 기반으로 쿼리 및 서포트 클립 간의 유사도 점수를 예측하기 위해 비교기(comparator)를 사용한다.

실험 결과

연구 질문

RQ1자기지도 학습을 통한 주의 메커니즘 훈련이 소수 샘플 비디오 행동 인식에서 시간 분포 이탈에 대해 강건성을 향상시키는가?
RQ2순열 불변 풀링이 비디오 클립의 다양한 길이의 행동에 대한 일반화 능력을 어느 정도 향상시키는가?
RQ3제안된 관계 기술자가 소수 샘플 행동 분류를 위한 특징적인 시공간 패턴을 얼마나 효과적으로 포착하는가?
RQ4공간 및 시간 주의의 통합이 기준 방법 대비 소수 샘플 비디오 벤치마크에서 성능 향상에 기여하는가?
RQ5최소한의 레이블 예시로 다양한 행동 클래스에 일반화할 수 있으며, 행동 길이 변화에 대해 강건성을 유지할 수 있는가?

주요 결과

제안된 방법은 HMDB51 데이터셋에서 최신 기술 성능을 달성하여 이전 방법들을 능가한다.
UCF101 데이터셋에서, 제한된 서포트 예시로 다양한 행동 클래스에 대해 뛰어난 일반화 능력을 보였다.
miniMIT (miniImageNet-101) 벤치마크에서 새로운 최신 기술 성능을 달성하여 비디오 소수 샘플 학습으로의 강력한 전이 능력을 보였다.
블록 순서 뒤바꿈을 통한 자기지도 학습을 통해 주의 메커니즘의 훈련이 자연스러운 비디오 클립에서 시간 분포 이탈에 대한 모델 강건성을 크게 향상시켰다.
순열 불변 풀링과 관계 기술자 학습의 조합이 쿼리-서포트 매칭을 위한 더 특징적인 특징 표현을 이끌어냈다.
자기지도 학습을 통해 훈련된 주의 메커니즘은 블록 순서에 대해 불변이 되어 다양한 길이의 행동에 대한 일반화 능력이 향상되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.