QUICK REVIEW

[논문 리뷰] Tube Convolutional Neural Network (T-CNN) for Action Detection in Videos

Rui Hou, Chen Chen|arXiv (Cornell University)|2017. 03. 30.

Human Pose and Action Recognition참고 문헌 24인용 수 58

한 줄 요약

3D-CNN 기반의 엔드-투-엔드 프레임워크(T-CNN)가 비디오에서 3D 튜 프로포절을 생성하고 연결하여 동작을 탐지하고 로컬라이즈하며, 스페이시오-템포럴 액션 검출을 위해 Tube Proposal Network와 Tube-of-Interest pooling을 사용합니다.

ABSTRACT

Deep learning has been demonstrated to achieve excellent results for image classification and object detection. However, the impact of deep learning on video analysis (e.g. action detection and recognition) has been limited due to complexity of video data and lack of annotations. Previous convolutional neural networks (CNN) based video action detection approaches usually consist of two major steps: frame-level action proposal detection and association of proposals across frames. Also, these methods employ two-stream CNN framework to handle spatial and temporal feature separately. In this paper, we propose an end-to-end deep network called Tube Convolutional Neural Network (T-CNN) for action detection in videos. The proposed architecture is a unified network that is able to recognize and localize action based on 3D convolution features. A video is first divided into equal length clips and for each clip a set of tube proposals are generated next based on 3D Convolutional Network (ConvNet) features. Finally, the tube proposals of different clips are linked together employing network flow and spatio-temporal action detection is performed using these linked video proposals. Extensive experiments on several video datasets demonstrate the superior performance of T-CNN for classifying and localizing actions in both trimmed and untrimmed videos compared to state-of-the-arts.

연구 동기 및 목표

비디오에서 엔드투엔드 시공-템포럴 액션 검출의 필요성을 제시합니다.
비디오 클립에서 직접 동작을 로컬라이즈하고 인식하는 통합 3D-CNN 프레임워크를 제안합니다.
3D 특징으로부터 튜 프로포절을 생성하기 위한 Tube Proposal Network (TPN)을 소개합니다.
가변적인 튜 프로포절을 위한 고정 길이의 디스크립터를 생성하는 Tube-of-Interest (ToI) 풀링을 개발합니다.
다듦된(trimmed) 및 잘려진(untrimmed) 비디오 데이터셋에서 최첨단 성능을 보여줍니다.

제안 방법

3D ConvNet으로 비디오 클립을 처리하여 시공-템포럴 특징 큐브를 추출합니다.
액션-정 점수화 및 k-means로 학습된 앵커 박스를 갖춘 Tube Proposal Network (TPN)를 사용하여 클립당 튜 프로포절을 생성합니다.
인접 클립 간에 액션-정 점수화 및 중첩 기반 스코어링과 네트워크 흐름으로 튜 프로포절을 연결합니다.
연결된 튜 프로포절로부터 고정 길이의 특징을 얻어 액션 분류를 수행하기 위해 Tube-of-Interest (ToI) 풀링을 적용합니다.
TPN과 인식 네트워크 간의 교대 업데이트를 통해 엔드-투-엔드로 학습하며, 차원을 맞추기 위한 1x1 컨볼루션과 최종 완전연결층을 이용해 경계상자 회귀 및 액션 분류를 수행합니다.
8 프레임의 각 클립에서 conv5 제안들을 conv2 특징 튜로 매핑하여 프레임 순서 정보를 보존하기 위한 시간적 스킵 풀링을 사용합니다.

실험 결과

연구 질문

RQ1엔드-투-엔드 3D CNN 프레임워크가 두 스트림 또는 프레임 수준 제안에 의존하지 않고도 비디오 입력에서 직접 동작을 로컬라이즈하고 인식하는 학습이 가능합니까?
RQ2데이터 기반 앵커 박스를 갖춘 Tube Proposal Network가 프레임 기반 제안과 비교하여 시공-템포럴 액션 로컬라이제이션을 개선합니까?
RQ3ToI 풀링이 가변 길이 튜에 대해 고정 길이의 디스크립터를 효과적으로 생성하여 견고한 액션 분류를 가능하게 합니까?
RQ4시간적 스킵 풀링이 시간 순서 정보를 보존하고 로컬라이제이션 정확도를 향상합니까?
RQ5다양한 데이터셋에서 잘려진 비디오와 잘려지지 않은 비디오에서 T-CNN의 성능은 어떠합니까?

주요 결과

T-CNN은 잘려진 데이터셋 UCF-Sports, J-HMDB, UCF-101에서 최첨단 성능을 달성하고 잘려지지 않은 THUMOS’14 데이터셋에서도 성능을 달성합니다.
3D ConvNet 기반의 튜 프로포절과 ToI 풀링을 사용하면 액션 로컬라이제이션 및 인식이 향상됩니다.
시간적 스킵 풀링은 시간 순서 정보를 보존하여 로컬라이제이션 정확도를 향상시킵니다.
프레임 수준 제안이나 이중 스트림 아키텍처에 의존하지 않고, 학습 가능 앵커를 갖춘 3D 부피에서 작동하는 엔드-투-엔드 접근 방식이 더 우수합니다.
이 접근법은 액션 인식 정확도에서 강력한 성능을 보여줍니다: UCF-Sports에서 95.7%, J-HMDB에서 67.2%, UCF-101(24액션)에서 94.4%.
THUMOS’14에서 음수 샘플 채굴이 성능을 추가로 향상시킵니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.