QUICK REVIEW

[논문 리뷰] Temporal Segment Networks for Action Recognition in Videos

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|2017. 05. 08.

Human Pose and Action Recognition참고 문헌 59인용 수 53

한 줄 요약

Temporal Segment Networks (TSN)를 도입하여 희소 세그먼트 샘플링과 세그먼트 합의를 통해 비디오의 장기 시간 구조를 모델링하고, 여러 행동 인식 벤치마크에서 최첨단을 달성하며 실시간 RGB-diff 기반 모션을 가능하게 한다.

ABSTRACT

Deep convolutional networks have achieved great success for image recognition. However, for action recognition in videos, their advantage over traditional methods is not so evident. We present a general and flexible video-level framework for learning action models in videos. This method, called temporal segment network (TSN), aims to model long-range temporal structures with a new segment-based sampling and aggregation module. This unique design enables our TSN to efficiently learn action models by using the whole action videos. The learned models could be easily adapted for action recognition in both trimmed and untrimmed videos with simple average pooling and multi-scale temporal window integration, respectively. We also study a series of good practices for the instantiation of TSN framework given limited training samples. Our approach obtains the state-the-of-art performance on four challenging action recognition benchmarks: HMDB51 (71.0%), UCF101 (94.9%), THUMOS14 (80.1%), and ActivityNet v1.2 (89.6%). Using the proposed RGB difference for motion models, our method can still achieve competitive accuracy on UCF101 (91.0%) while running at 340 FPS. Furthermore, based on the temporal segment networks, we won the video classification track at the ActivityNet challenge 2016 among 24 teams, which demonstrates the effectiveness of TSN and the proposed good practices.

연구 동기 및 목표

비디오에서 행위 인식을 위한 장기 시간 구조를 모델링한다.
전체 비디오를 다루기 위해 희소 샘플링을 사용하는 비디오 수준 프레임워크를 개발한다.
계층적 집합화를 통해 TSN이 잘린 비디오와 잘리지 않은 비디오 모두에서 작동하도록 한다.
제한된 데이터로 딥 액션 모델을 훈련하기 위한 모범 사례를 식별한다.

제안 방법

비디오를 K개의 세그먼트로 나누고 각 세그먼트에서 하나의 스니펫을 샘플링한다.
공유된 ConvNet으로 각 스니펫을 처리하여 스니펫 점수를 얻는다.
유연한 합의 함수(최대값, 평균, Top-K, 가중치, 어텐션)로 스니펫 점수를 집계한다.
다중 스케일 시간 창 통합(M-TWI)을 사용하여 잘리지 않은 비디오에 모델을 적용한다.
제한된 데이터로 훈련을 개선하기 위해 교차 모달리티 초기화와 부분 배치 정규화(partial BN)를 탐구한다.
RGB, 광류, RGB 차이, 그리고 왜곡된 광류를 포함한 모달리티를 실험한다.

실험 결과

연구 질문

RQ1가벼운 샘플링 전략으로 비디오에서 장기 시간 구조를 어떻게 효과적으로 포착할 수 있을까?
RQ2세그먼트 기반 집계 프레임워크가 잘린 비디오와 잘리지 않은 비디오 모두에서 정확한 인식을 가능하게 할 수 있을까?
RQ3제한된 데이터에서 성능을 가장 잘 향상시키는 입력 모달리티와 학습 방법은 무엇일까?
RQ4다양한 집계 전략이 비디오 수준 예측과 학습 역학에 어떤 영향을 미치는가?
RQ5교차 모달리티 초기화와 부분 BN이 모델 성능에 미치는 영향은 무엇인가?

주요 결과

HMDB51 (71.0%), UCF101 (94.9%), THUMOS14 (80.1%), 및 ActivityNet v1.2 (89.6%)에서 최첨단 정확도를 달성했다.
RGB-difference를 모션 입력으로 사용하면 UCF101에서 91.0%에 도달할 수 있으며 340 FPS로 실행된다.
프레임워크는 트리밍 유연성을 지원하고 비trimmed 비디오에 대해 다중 스케일 시간 창 통합으로 강력한 결과를 달성한다.
다섯 가지 집계 함수를 도입했고 Top-K 풀링과 어텐션 가중치가 배경에 대한 강건성을 향상시킴을 보여주었다.
교차 모달리티 초기화와 부분 BN이 제한된 데이터로 액션 인식 작업에서 딥 모델 훈련에 도움을 준다는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.