QUICK REVIEW

[논문 리뷰] Cascaded Boundary Regression for Temporal Action Detection

Jiyang Gao, Zhenheng Yang|arXiv (Cornell University)|2017. 05. 02.

Human Pose and Action Recognition참고 문헌 16인용 수 58

한 줄 요약

논문은 Cascaded Boundary Regression(CBR)을 2단계 시간 액션 탐지 파이프라인 내에 도입하여 경계선을 반복적으로 개선하고, THUMOS-14와 TVSeries에서 특히 높은 IoU 임계에서 최첨단 결과를 달성합니다.

ABSTRACT

Temporal action detection in long videos is an important problem. State-of-the-art methods address this problem by applying action classifiers on sliding windows. Although sliding windows may contain an identifiable portion of the actions, they may not necessarily cover the entire action instance, which would lead to inferior performance. We adapt a two-stage temporal action detection pipeline with Cascaded Boundary Regression (CBR) model. Class-agnostic proposals and specific actions are detected respectively in the first and the second stage. CBR uses temporal coordinate regression to refine the temporal boundaries of the sliding windows. The salient aspect of the refinement process is that, inside each stage, the temporal boundaries are adjusted in a cascaded way by feeding the refined windows back to the system for further boundary refinement. We test CBR on THUMOS-14 and TVSeries, and achieve state-of-the-art performance on both datasets. The performance gain is especially remarkable under high IoU thresholds, e.g. map@tIoU=0.5 on THUMOS-14 is improved from 19.0% to 31.0%.

연구 동기 및 목표

컷 없이 비절단 비디오에서 슬라이딩 윈도우 커버리지를 넘어선 정밀한 시간 위치 선정을 동기화한다.
각 단계 내에서 시간 경계를 점진적으로 정제하기 위한 Cascaded Boundary Regression 메커니즘을 제안한다.
시간적 액션 제안 생성과 액션 탐지 모두에서 CBR의 효과를 입증한다.
THUMOS-14와 TVSeries 데이터셋에서 이전 방법들과의 성능을 평가한다.

제안 방법

2단계 액션 탐지 파이프라인: 1단계는 클래스 비특정 시간 제안을 생성하고, 2단계는 제안에 기반하여 액션 특이적 탐지를 수행한다.
맥락 보강 클립 표현을 갖춘 C3D 및 이중 흐름 CNN 특징을 이용한 단위 수준 비디오 특징 추출.
시작/종료 경계를 정제하기 위한 파라미터 없는 단위 수준 오프셋을 이용한 시간 좌표 회귀.
각 단계 내에서의 Cascaded Boundary Regression: refined 클립을 동일 네트워크로 다시 피드하여 추가 경계 정제를 수행(K_p 제안의 단계 수, K_d 탐지의 단계 수).
분류 손실(제안은 이진 분류, 탐지는 다중 클래스)과 L1 기반 경계 회귀를 결합한 다중 작업 손실을 Adam으로 최적화하며, 주어진 하이퍼파라미터를 사용한다.
훈련 샘플은 tIoU 기반 레이블링이 있는 슬라이딩 윈도우에서 샘플링되어 제안 네트워크와 탐지 네트워크를 분리하여 학습할 수 있다.

실험 결과

연구 질문

RQ1비파라미터화된 단위 수준의 시간 좌표 회귀가 경계 정제에 대해 파라미터화된 및 프레임 수준 오프셋보다 우수한가?
RQ2캐스케이드된 경계 회귀 단계가 단일 단계 회귀보다 경계 위치 지정과 액션 탐지 성능을 향상시키는가?
RQ3CBR이 THUMOS-14와 TVSeries에서 시간 제안 생성 및 액션 탐지에 대해 이전 방법들과 비교하여 어떤 성능을 보이는가?
RQ4CBR을 다른 특징 유형(C3D 대 이중 흐름)과 함께 사용할 때 위치 정밀도에 미치는 영향은 무엇인가?

주요 결과

tIoU	Oneata et al. 2014	Yeung et al. 2016	Yuan et al. 2016	S-CNN 2016	CBR-C3D	CBR-TS
0.1	36.6	48.9	51.4	47.7	48.2	60.1
0.2	33.6	44.0	42.6	43.5	44.3	56.7
0.3	27.0	36.0	33.6	36.3	37.7	50.1
0.4	20.8	26.4	26.1	28.7	30.1	41.3
0.5	14.4	17.1	18.8	19.0	22.7	31.0
0.6	8.5	-	-	10.3	13.8	19.1
0.7	3.2	-	-	5.3	7.9	9.9

단위 수준의 비파라미터화된 시간 오프셋이 파라미터화된 및 프레임 수준 접근법보다 경계 회귀에서 우수하다.
캐스케이디드 경계 회귀는 비캐스케이드 베이스라인 대비 제안 AR@F=1.0 및 탐지 mAP@IoU=0.5를 개선하며, 최적의 결과는 중간 깊이의 캐스케이드에서 나타난다(K_p=3 제안, K_d=2 탐지).
두 흐름 특징을 사용하는 CBR은 THUMOS-14에서 AR@F=1.0 및 mAP@tIoU=0.5에서 최첨단 수준에 도달하며, 높은 IoU 임계에서 이전 방법들보다 크게 성능이 향상된다.
THUMOS-14에서 CBR-C3D 및 CBR-TS가 SCNN-prop 및 TURN를 다양한 지표에서 능가하며, CBR-TS는 탐지에서 mAP@tIoU=0.5가 31.0%에 달한다.
TVSeries에서 캐스케이즈드 회귀는 비회귀 baselines 대비 상당한 이득을 제공하고, CBR-TS는 여러 tIoU 설정에서 prior FV 및 SVM-TS 접근법을 능가한다.
결과는 도전적인 데이터셋 전반에서 제안 생성과 액션 탐지 모두에 대한 CBR의 강력한 효과를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.