Skip to main content
QUICK REVIEW

[논문 리뷰] TriDet: Temporal Action Detection with Relative Boundary Modeling

Dingfeng Shi, Yujie Zhong|arXiv (Cornell University)|2023. 03. 13.
Human Pose and Action Recognition인용 수 9
한 줄 요약

TriDet는 self-attention을 대체하기 위한 SGP 기반 레이어와 상대 경계 모델링을 위한 Trident-head를 도입하여 경계 로컬라이제이션과 다중 스케일 특징에 중점을 두고 시계열 동작 탐지(temporal action detection)를 개선한다.

ABSTRACT

In this paper, we present a one-stage framework TriDet for temporal action detection. Existing methods often suffer from imprecise boundary predictions due to the ambiguous action boundaries in videos. To alleviate this problem, we propose a novel Trident-head to model the action boundary via an estimated relative probability distribution around the boundary. In the feature pyramid of TriDet, we propose an efficient Scalable-Granularity Perception (SGP) layer to mitigate the rank loss problem of self-attention that takes place in the video features and aggregate information across different temporal granularities. Benefiting from the Trident-head and the SGP-based feature pyramid, TriDet achieves state-of-the-art performance on three challenging benchmarks: THUMOS14, HACS and EPIC-KITCHEN 100, with lower computational costs, compared to previous methods. For example, TriDet hits an average mAP of $69.3\%$ on THUMOS14, outperforming the previous best by $2.5\%$, but with only $74.6\%$ of its latency. The code is released to https://github.com/sssste/TriDet.

연구 동기 및 목표

  • 비디오 백본에서의 높은 시퀀스 특징 유사성 문제와 그로 인한 self-attention 랭크 로드를 해결한다.
  • self-attention을 CNN 유사 연산으로 대체하기 위한 SGP (Spatial-Global Projection) 레이어를 제안한다.
  • 경계 로컬라이제이션 향상을 위한 상대 경계 확률 모델링을 수행하는 Trident-head를 도입한다.
  • THUMOS14와 HACS 데이터셋에서의 효과를 입증하고 계산 효율성을 분석한다.

제안 방법

  • self-attention을 SGP 레이어로 대체하여 가중치 제약을 완화하고 멀티-스케일 깊이별 합성곱을 통해 self-attention 효과를 모방한다.
  • action과 비-action 인스턴트 간의 이질성을 높이기 위해 즉시 수준 인브랜치를 구현한다.
  • 더 넓은 의미적 맥락을 포착하고 스케일 선택의 안정화를 돕기 위해 윈도우 수준 브랜치(ψ 구성요소)를 구현한다.
  • 상대 경계 확률을 학습하는 Trident-head를 제안하여 경계에 초점을 두되 내부 특징도 고려한다.
  • SA 기반 트랜스포머 및 다이내믹 필터와의 비교를 수행하고 표준 벤치마크에서의 계산 비용(지연)과 mAP를 보고한다.

실험 결과

연구 질문

  • RQ1비디오 기반 시계열 동작 탐지에서 self-attention으로 인한 랭크 로드를 어떻게 완화할 수 있는가?
  • RQ2CNN 유사 SGP 레이어로의 대체가 특징 구별력과 경계 로컬라이제이션을 향상시키는가?
  • RQ3경계 인지 헤드(Trident-head)가 상대 경계 확률을 활용하여 더 정확한 동작 경계를 제공할 수 있는가?
  • RQ4THUMOS14와 HACS 데이터셋에서 SGP와 Trident-head를 사용할 때 정확도와 지연 간의 트레이드오프는 무엇인가?

주요 결과

  • SGP 레이어는 인스턴트 수준의 구별성을 높이고 탐지 성능을 향상시킨다.
  • Trident-head는 내부의 동작 특징을 고려하면서 경계에 초점을 맞추도록 학습되어 보다 정확한 경계 확률을 제공한다.
  • HACS에서 평균 mAP 값이 ablations 간에 36.3, 38.0, 38.6으로 보고되며 THUMOS14 결과와 일치한다.
  • 트랜스포머의 매크로-구조는 self-attention 없이도 효과적으로 유지되며 제안된 SGP 접근을 뒷받침한다.
  • TriDet가 순수 CNN 대비 계산량을 증가시키지만 전체 컨볼루션 구조는 self-attention보다 GPU 효율이 높으며 지연 측면의 이점을 보고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.