[논문 리뷰] TemporalMaxer: Maximize Temporal Context with only Max Pooling for Temporal Action Localization
TemporalMaxer는 파라미터 없는 간단한 Max Pooling 블록을 사용하여 사전 추출된 3D-CNN 특징에서 지역적 시간 정보를 극대화하고 TAL에서 장기적 TCM 방법보다 빠른 속도와 더 적은 파라미터로 성능을 향상시킨다.
Temporal Action Localization (TAL) is a challenging task in video understanding that aims to identify and localize actions within a video sequence. Recent studies have emphasized the importance of applying long-term temporal context modeling (TCM) blocks to the extracted video clip features such as employing complex self-attention mechanisms. In this paper, we present the simplest method ever to address this task and argue that the extracted video clip features are already informative to achieve outstanding performance without sophisticated architectures. To this end, we introduce TemporalMaxer, which minimizes long-term temporal context modeling while maximizing information from the extracted video clip features with a basic, parameter-free, and local region operating max-pooling block. Picking out only the most critical information for adjacent and local clip embeddings, this block results in a more efficient TAL model. We demonstrate that TemporalMaxer outperforms other state-of-the-art methods that utilize long-term TCM such as self-attention on various TAL datasets while requiring significantly fewer parameters and computational resources. The code for our approach is publicly available at https://github.com/TuanTNG/TemporalMaxer
연구 동기 및 목표
- 강력한 장기 시간 맥락 모델링(TCM)의 필요성에 의문을 제기함으로써 TAL에 대한 미니멀리스트 접근 방식을 제시한다.
- 사전 추출된 3D-CNN 특징이 단순하고 로컬 맥스 풀링 블록과 결합되었을 때 TAL에 필요한 충분한 정보를 포함하는지 조사한다.
- 비용이 큰 어텐션 기반 TCM 블록을 대체하는 파라미터 없는 로컬 컨텍스트 모듈로 TemporalMaxer를 개발한다.
- 표준 TAL 벤치마크에서 TemporalMaxer를 평가하여 Transformer 및 그래프 기반의 장기 TCM 방법과의 정확도 및 추론 속도를 비교한다.
제안 방법
- 사전 학습된 3D CNN에서 클립 특징을 추출하여 시퀀스 X를 형성한다.
- 피라미드 레벨 사이에 두 개의 1D 컨볼루션 투영과 L-1 TemporalMaxer 블록(스트라이드 2의 맥스풀링)을 사용해 다중 스케일 시간 특징 피라미드 Z를 구축한다.
- 피라미드 레벨 전반에 공유되는 분류 및 회귀 브랜치를 갖춘 경량 헤드로 디코딩한다.
- Focal Classification Loss와 DIoU Regression Loss를 결합한 다중 작업 손실로 모든 레벨에 대해 양성 샘플에 대한 지시자를 적용하여 학습한다.
- TCM 블록의 커널 크기를 고정된 3으로 유지하고, Ablation에서 Conv, Subsampling, Average Pooling, Transformer와의 비교를 수행한다.
- 맥스풀링 연산이 깊은 네트워크의 수용 영역을 활용하면서 판별 가능한 로컬 정보를 보존하는 단순하고 매개변수가 없는 백본을 지향한다.
실험 결과
연구 질문
- RQ1파라미터가 없는 Max Pooling 기반 TCM 블록이 고품질의 사전 추출 특징을 사용할 때 TAL의 시간 맥락을 극대화하기에 충분한가?
- RQ2TemporalMaxer가 Transformer/그래프 기반의 장기 TCM 방법에 비해 파라미터 수와 계산 비용이 현저히 적은 상태에서도 경쟁적이거나 우수한 TAL 성능을 달성할 수 있는가?
- RQ3TemporalMaxer는 표준 TAL 데이터셋(THUMOS14, EPIC-Kitchens 100, MultiTHUMOS, MUSES)에서 최첨단 기준선에 비해 어떤 성능을 보이는가?
- RQ4Max Pooling TCM 블록의 서로 다른 커널 크기가 TAL 성능 및 효율성에 어떤 영향을 미치는가?
주요 결과
| 모델 | 피처 | 0.3 | 0.4 | 0.5 | 0.6 | 0.7 | 평균 | 시간 (ms) |
|---|---|---|---|---|---|---|---|---|
| ActionFormer [60] | I3D [7] | 82.1 | 77.8 | 71.0 | 59.4 | 43.9 | 66.8 | 80 |
| Our (TemporalMaxer) | I3D [7] | 82.8 | 78.9 | 71.8 | 60.5 | 44.7 | 67.7 | 50 |
- TemporalMaxer는 THUMOS14에서 평균 tIoU 임계값 간의 67.7 mAP를 달성하여 이전 방법들, 특히 장기 TCM 접근법을 능가한다.
- TemporalMaxer는 백본 계산을 줄이고 추론 속도를 더 빠르게 달성한다. 예를 들어 THUMOS14에서 비디오당 50 ms로, ActionFormer 기반선의 더 높은 비용에 비해 빠르다.
- EPIC-Kitchens 100에서 TemporalMaxer는 동사 평균 mAP 24.5%, 명사 22.8%를 달성하여 ActionFormer 기반선보다 각각 약 1.0% 및 0.9% 포인트 앞서 있다.
- MUSES에서 TemporalMaxer는 평균 mAP 27.2로 기존의 장기 TCM 방법들을 능가한다.
- MultiTHUMOS에서 TemporalMaxer는 평균 mAP 29.9%를 달성하여 PointTAD 및 ActionFormer 기반선보다 유의미한 차이로 앞선다.
- 절제 연구에서 맥스 풀링이 Conv, Subsampling, Average Pooling보다 TCM 블록으로서 우수하며, 커널 크기 3이 최적의 성능을 제공하면서도 큰 효율을 유지함을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.