Skip to main content
QUICK REVIEW

[논문 리뷰] Temporal Action Detection with Structured Segment Networks

Yue Zhao, Yuanjun Xiong|arXiv (Cornell University)|2017. 04. 20.
Human Pose and Action Recognition참고 문헌 48인용 수 144
한 줄 요약

SSN은 행동의 시작, 진행, 종료 단계를 모델링하기 위해 구조화된 시간 피라미드 풀링을 도입하고, 별도의 활동 분류기와 완전도(완전성) 분류기, 그리고 TAG 제안을 더해 THUMOS’14 및 ActivityNet에서 최첨단 결과를 달성한다.

ABSTRACT

Detecting actions in untrimmed videos is an important yet challenging task. In this paper, we present the structured segment network (SSN), a novel framework which models the temporal structure of each action instance via a structured temporal pyramid. On top of the pyramid, we further introduce a decomposed discriminative model comprising two classifiers, respectively for classifying actions and determining completeness. This allows the framework to effectively distinguish positive proposals from background or incomplete ones, thus leading to both accurate recognition and localization. These components are integrated into a unified network that can be efficiently trained in an end-to-end fashion. Additionally, a simple yet effective temporal action proposal scheme, dubbed temporal actionness grouping (TAG) is devised to generate high quality action proposals. On two challenging benchmarks, THUMOS14 and ActivityNet, our method remarkably outperforms previous state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling actions with various temporal structures.

연구 동기 및 목표

  • 세 단계(시작, 진행, 종료) 인 표현을 사용하여 동작 인스턴스의 시간적 구조를 모델링한다.
  • 풍부한 전역 제안들을 형성하기 위해 구조화된 시간 피라미드 풀링(STPP)을 개발한다.
  • 불완전한 제안이나 배경 제안을 필터링하기 위해 동작 분류와 완전성 평가를 공동으로 학습한다.
  • 긴 비디오에서 효율성을 위해 희소 샘플링된 스니펫으로 엔드투엔드 학습을 가능하게 한다.
  • recall 및 precision 향상을 위한 강력한 시간적 동작 제안 방법(Temporal Actionness Grouping, TAG)을 제안한다.

제안 방법

  • 확대된 제안을 시작, 진행, 종료 단계로 나누고 구조화된 시간 피라미드 풀링을 적용하여 단계별 표현을 얻는다.
  • 배경 포함 K+1 클래스를 위한 활동 분류기 하나와 제안의 완전성을 평가하기 위한 K개의 완전성 분류기 세트를 사용하는 이중 분류기 시스템을 사용한다.
  • 분류와 완전성을 결합한 다중 작업 손실과 시간 경계에 대한 위치 회귀를 사용하여 학습한다.
  • 학습 중 STPP를 효율적으로 근사하기 위해 희소 스니펫 샘플링(L=9 세그먼트)을 채택한다.
  • 추론 중에 공유 특징을 재사용하고 다수의 제안에 대한 분류/회귀를 가속화하기 위해 계산 순서를 재배열한다.
  • 1D 액션니스 신호를 확산시키고 저지대를 합쳐 고품질 제안을 생성하는 Temporal Actionness Grouping(TAG)을 이용해 제안을 생성한다.

실험 결과

연구 질문

  • RQ1명시적인 시간적 구조 모델링(시작/진행/종료)이 완전한 동작 인스턴스를 불완전한 제안이나 배경 제안과 구분할 수 있는가?
  • RQ2구조화된 시간 피라미드 풀링이 길고 가변적으로 구성된 동작의 표현을 플랫 풀링과 비교하여 개선하는가?
  • RQ3다양한 IoU 임계값에서 독립적인 활동 분류기와 완전성 분류기가 탐지 정확도와 정밀도에 어떻게 기여하는가?
  • RQ4희소 샘플링을 이용한 엔드투엔드 학습이 성능과 효율성에 어떤 영향을 미치는가?
  • RQ5TAG가 전통적 슬라이딩 윈도우나 다른 제안들에 비해 더 높은 재현율과 더 나은 제안 품질을 제공하는가?

주요 결과

  • SSN은 THUMOS’14 및 ActivityNet v1.3/1.2에서 최첨단 결과를 달성했으며 여러 지표에서 기존 방법을 능가한다.
  • 시작, 진행, 종료를 포함한 확대 제안과 함께 구조화된 시간 피라미드 풀링은 단계 구조가 없는 설정보다 탐지를 개선한다.
  • 독립적인 활동 분류기와 완전성 분류기가 단일 통합 음성-클래스 접근법을 능가한다.
  • 위치 회귀와 다중 작업 학습은 일관되게 탐지 정확도를 향상시킨다.
  • 희소 샘플링을 이용한 엔드투엔드 학습은 저장소 및 계산을 줄인 상태에서 경쟁력 있는 성능을 제공한다.
  • TAG 제안은 더 높은 재현율과 더 나은 IoU 품질을 제공하여 전체 탐지 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.