QUICK REVIEW

[논문 리뷰] R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

Huijuan Xu, Abir Das|arXiv (Cornell University)|2017. 03. 22.

Human Pose and Action Recognition참고 문헌 35인용 수 129

한 줄 요약

R-C3D는 제안 단계와 분류 단계 간에 3D CNN 특징을 공유하는 엔드-투-엔드의 빠른 시간 활동 감지 모델로, THUMOS’14에서 최첨단 결과를 달성하고 ActivityNet 및 Charades에 강력한 일반화 성능을 보입니다.

ABSTRACT

We address the problem of activity detection in continuous, untrimmed video streams. This is a difficult task that requires extracting meaningful spatio-temporal features to capture activities, accurately localizing the start and end times of each activity. We introduce a new model, Region Convolutional 3D Network (R-C3D), which encodes the video streams using a three-dimensional fully convolutional network, then generates candidate temporal regions containing activities, and finally classifies selected regions into specific activities. Computation is saved due to the sharing of convolutional features between the proposal and the classification pipelines. The entire model is trained end-to-end with jointly optimized localization and classification losses. R-C3D is faster than existing methods (569 frames per second on a single Titan X Maxwell GPU) and achieves state-of-the-art results on THUMOS'14. We further demonstrate that our model is a general activity detection framework that does not rely on assumptions about particular dataset properties by evaluating our approach on ActivityNet and Charades. Our code is available at http://ai.bu.edu/r-c3d/.

연구 동기 및 목표

자르지 않은 비디오에서 활동을 탐지하고 로컬라이즈하기 위한 빠르고 엔드-투-엔드 모델을 정의한다.
제안 생성을 위한 공유된 시공간 특징과 활동 분류를 학습한다.
3D RoI 풀링과 앵커 기반 제안을 사용하여 가변 길이 활동 제안을 가능하게 한다.
특징 공유를 통해 슬라이딩 윈도우 및 회귀 전용 방법에 비해 효율성을 개선한다.
다양한 데이터셋(THUMOS’14, ActivityNet, Charades)에서 일반화를 보여준다.

제안 방법

전체 합성곱 3D 네트워크(C3D 기반)로 비디오 스트림을 인코딩하여 공유 시공간 특징을 추출한다.
앵커 기반 세그먼트와 시간 제안 서브넷을 사용하여 활동이 포함될 가능성이 있는 시간 영역을 제안한다.
2D RoI 풀링을 3D RoI 풀링으로 확장하여 가변 길이 제안에 대해 고정 크기 특징을 얻는다.
제안을 분류하고 경계를 다듬기 위해 공유 분류 서브트리와 회귀 헤드를 사용한다.
두 서브넷에 걸쳐 결합된 로컬라이제이션(회귀) 및 분류 손실을 함께 학습한다.

실험 결과

연구 질문

RQ1공유 특징을 갖는 엔드-투-엔드 3DConvNet이 잘라지지 않은 비디오에서 시간적 활동 감지의 속도와 정확도를 향상시킬 수 있는가?
RQ2앵커 기반 시간 제안과 3D RoI 풀링이 데이터 세트 전반에 걸쳐 유연한 활동 경계의 정확한 탐지를 가능하게 하는가?
RQ3R-C3D의 THUMOS’14, ActivityNet, Charades에서의 성능은 최첨단 방법과 어떻게 비교되는가?
RQ4제안 및 분류 단계 간 합성곱 특징을 공유하는 인퍼런스 속도 이점은 무엇인가?

주요 결과

R-C3D는 THUMOS’14에서 최첨단 mAP를 달성하며, 특히 더 높은 IoU 임계치에서 두드러진다.
양방향 버퍼링(역방향 비디오 버퍼에서의 추론)은 IoU 임계치 전반에서 mAP를 향상시키며(예: IoU 0.5에서 27.0%에서 28.9%로).
THUMOS’14에서 Basketball Dunk, Cliff Diving, Javelin Throw와 같은 활동의 클래스별 AP에서 큰 증가를 보인다.
ActivityNet 및 Charades에서 엔드-투-엔드 학습을 사용한 강력한 일반화를 보이며 경쟁력 있는 결과를 보인다.
R-C3D는 대안들보다 훨씬 빠르게 실행되며 (569 fps on Titan X Maxwell; 1030 fps on Titan X Pascal).
이 모델은 중첩 제안과 경계 정제를 통해 임의 길이의 활동을 탐지하고 중첩되는 활동(Charades)을 처리할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.