QUICK REVIEW

[논문 리뷰] Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|2016. 08. 02.

Human Pose and Action Recognition참고 문헌 32인용 수 289

한 줄 요약

소개 Temporal Segment Networks (TSN)을 사용하여 sparse sampling과 영상 수준 감독으로 비디오의 긴 범위 시간 구조를 모델링하고, 실용적인 학습 전략으로 HMDB51 및 UCF101에서 심층 ConvNets가 최첨단 행동 인식 성능을 달성하게 한다.

ABSTRACT

Deep convolutional networks have achieved great success for visual recognition in still images. However, for action recognition in videos, the advantage over traditional methods is not so evident. This paper aims to discover the principles to design effective ConvNet architectures for action recognition in videos and learn these models given limited training samples. Our first contribution is temporal segment network (TSN), a novel framework for video-based action recognition. which is based on the idea of long-range temporal structure modeling. It combines a sparse temporal sampling strategy and video-level supervision to enable efficient and effective learning using the whole action video. The other contribution is our study on a series of good practices in learning ConvNets on video data with the help of temporal segment network. Our approach obtains the state-the-of-art performance on the datasets of HMDB51 ( $ 69.4\% $) and UCF101 ($ 94.2\% $). We also visualize the learned ConvNet models, which qualitatively demonstrates the effectiveness of temporal segment network and the proposed good practices.

연구 동기 및 목표

동작의 긴 범위 시간 구조를 포착하는 효과적인 비디오 수준 표현을 고무한다.
강인한 학습 방법을 제안하여 비디오에서의 심층 ConvNet에 대한 제한된 학습 샘플 문제를 해결한다.
효율적인 계산으로 전체 비디오 정보를 활용하는 희소하고 엔드-투-엔드 프레임워크를 개발한다.

제안 방법

각 비디오에서 K개의 짧은 스니펫을 희소하게 샘플하고 세그먼트 합의로 스니펫 예측을 집계하여 비디오 수준 예측을 얻는 Temporal Segment Networks (TSN)를 제안한다.
각 스니펫에 대해 매우 깊은 네트워크(BN-Inception)를 사용하는 공간적 RGB 스트림과 시간적 흐름 스트림의 이중 흐름 ConvNet 아키텍처를 사용한다.
다양한 입력 모달리티(RGB, RGB difference, optical flow, warped optical flow)를 탐색하고 이들의 보완 정보를 평가한다.
RGB 사전 학습 모델에서 시작하여 시간 네트워크를 교차 모달리티 사전 학습으로 초기화하고, 과적합을 완화하기 위해 드롭아웃이 있는 부분 배치 정규화(partial Batch Normalization)를 사용하고 데이터 증강(코너 크롭, 스케일 지터링)을 구현한다.
미분 가능 세그먼트 합성(평균 풀링이 효과적임)을 채택하여 스니펫 수준 예측을 비디오 수준 점수로 융합하고, 역전파로 엔드-투-엔드 학습을 가능하게 한다.

실험 결과

연구 질문

RQ1비디오의 긴 범위 시간 구조를 심층 ConvNet으로 효과적으로 모델링하여 행동 인식을 수행하는 방법은?
RQ2희소 시간 샘플링과 세그먼트 수준 집계가 조밀 샘플링보다 훨씬 낮은 계산으로 경쟁력 있는 성능을 달성할 수 있는가?
RQ3제한된 비디오 데이터에서 매우 깊은 ConvNet을 학습하기 위한 최적의 실천 방법(사전 학습, 정규화, 증강)과 어떤 입력 모달리티가 성능을 최대화하는가?

주요 결과

그들의 설정에서 희소 샘플링과 세그먼트 합의가 HMDB51(69.4%) 및 UCF101(94.2%)에서 최첨단 성능을 달성한다.
여러 모달리티(RGB, RGB difference, optical flow, warped optical flow)의 융합은 인식 성능을 향상시키고, 네 가지 모달리티를 모두 사용하는 것이 실험에서 어느 부분집합보다 높은 정확도를 달성한다.
교차 모달리티 사전 학습, 드롭아웃이 있는 부분 BN, 고급 데이터 증강은 제한된 데이터 하에서 이중 스트림 CNN 성능을 크게 향상시킨다.
세그먼트 합의 함수로서 평균 풀링이 실험에서 최대 풀링 및 가중 평균보다 우수하다.
BN-Inception 기반 이중 스트림 네트워크와 TSN이 다른 아키텍처를 능가하며, 장기 시간 모델링이 비디오 행동 인식에 결정적임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.