QUICK REVIEW

[논문 리뷰] A Pursuit of Temporal Accuracy in General Activity Detection

Yuanjun Xiong, Yue Zhao|arXiv (Cornell University)|2017. 03. 08.

Human Pose and Action Recognition참고 문헌 32인용 수 130

한 줄 요약

논문은 비정제 비디오에서 시계열 액션 탐지를 위한 제안-분류 프레임워크를 제시하고, Bottom-up 제안용 Temporal Actionness Grouping (TAG)와 관련성 및 완전성을 separately 처리하는 cascaded classifier를 도입하여 THUMOS14와 ActivityNet 데이터셋에서 최첨단 결과를 달성합니다.

ABSTRACT

Detecting activities in untrimmed videos is an important but challenging task. The performance of existing methods remains unsatisfactory, e.g., they often meet difficulties in locating the beginning and end of a long complex action. In this paper, we propose a generic framework that can accurately detect a wide variety of activities from untrimmed videos. Our first contribution is a novel proposal scheme that can efficiently generate candidates with accurate temporal boundaries. The other contribution is a cascaded classification pipeline that explicitly distinguishes between relevance and completeness of a candidate instance. On two challenging temporal activity detection datasets, THUMOS14 and ActivityNet, the proposed framework significantly outperforms the existing state-of-the-art methods, demonstrating superior accuracy and strong adaptivity in handling activities with various temporal structures.

연구 동기 및 목표

비정제 비디오에서 시작과 끝 시간을 정확하게 탐지하는 일반 프레임워크를 개발한다.
완전한 액션과 부분 구간을 구분하는 데 어려움과 다양한 액션 지속 시간을 다루는 문제를 극복한다.
heavy parameter tuning 없이도 효율적이고 경계 정확한 제안을 생성하도록 제안을 개선한다.
제안을 각각의 관련성 및 완전성으로 평가하는 cascaded classifier를 활용한다.
데이터셋 간 다양한 시간 구조에 대한 적응성을 입증한다.

제안 방법

편별 스니펫의 액션니스 점수에 기반한 바텀-업, 클래스 비의존적 시간 제안을 생성하는 Temporal Actionness Grouping (TAG)을 도입한다.
Temporal Segment Networks를 사용해 스니펫을 전경(액션) 또는 배경으로 점수하는 이진 액션니스 분류기를 학습한다.
다양한 지속 시간을 가진 제안을 만들기 위해 높은 액션니스 스니펫을 가변 길이 제안으로 그룹화하고 다중 임계값 및 허용 확장을 사용한다.
먼저 배경 제안을 제거한 뒤, 두 번째 단계에서 클래스별 완전성 필터를 사용해 불완전하거나 과도하게 긴 제안을 버리는 두 단계의 cascaded classifier를 적용한다.
스니펫 수준의 활동 점수를 영역 수준 예측으로 합치고 완전성 점수와 융합해 최종 탐지 신뢰도 S_Det = P_a × exp(S_c)를 형성한다.
IOU 기반 양성 샘플과 주의 깊게 선택된 음성 샘플로 region proposals에 대해 TSN 기반의 활동 분류기를 학습시키고 partial-action 샘플로 인한 혼란을 피한다.
시간적 피라미드 특징과 주변 맥락 신호를 사용해 클래스별 완전성에 대한 SVM을 학습한다(하드 네거티브 마이닝 포함).

실험 결과

연구 질문

RQ1저차원 액션니스 기반의 바텀-업 제안 생성(TAG)이 다양한 지속 시간을 가진 액션들에 대해 높은 재현율의 시계열 제안을 생성할 수 있는가?
RQ2관련성(액션 클래스)과 완전성(전부 대 부분)을 구분하는 cascaded 분류 프레임워크가 시계열 위치 정확도를 향상시키는가?
RQ3제안이 보지 못한 액션 클래스 및 THUMOS14와 ActivityNet의 서로 다른 시간 구조에 일반화될 수 있는가?
RQ4완전성 필터링에 대한 시간 맥락 및 사전/사후 구간 신호의 영향은 무엇인가?
RQ5더 깊은 액티비티 분류기와 드문 제안이 슬라이딩 윈도우 및 얕은 제안에 비해 탐지 성능을 개선하는가?

주요 결과

TAG는 THUMOS14 및 ActivityNet에서 슬라이딩 윈도우 및 다른 희소 제안에 비해 제안 수가 적으면서도 재현율이 더 높다.
액션니스 기반 제안 방식은 보지 못한 클래스에도 일반화되며 데이터셋 전반에서 강인함을 유지한다.
두 단계 cascaded 분류(액션 분류에 이은 완전성 필터링)가 한 단계 또는 휴리스틱 완전성 방법보다 우수하다.
액티비티 분류기에 더 깊은 CNN 아키텍처(Inception-V3 대 BN-Inception)를 사용하는 것이 ActivityNet v1.2에서 탐지 성능을 향상시킨다.
제안된 완전성 필터는 일반적으로 mAP를 개선하고 특히 높은 IOU 임계값에서 효과가 크며 계산 비용도 가볍다.
프레임워크는 THUMOS14 및 ActivityNet에서 이전 방법들에 비해 평균 및 높은 IOU mAP 모두에서 상당한 향상을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.