QUICK REVIEW

[논문 리뷰] Two-Stream Convolutional Networks for Action Recognition in Videos

Karen Simonyan, Andrew Zisserman|arXiv (Cornell University)|2014. 06. 09.

Human Pose and Action Recognition참고 문헌 30인용 수 5,353

한 줄 요약

논문은 비디오 액션 인식에 대한 두 스트림 CNN 아키텍처를 제시하며, 공간 스트림(프레임 외관)과 시간 스트림(밀도 옵티컬 플로우)을 결합하고 다중 작업 학습 및 융합 전략이 UCF-101 및 HMDB-51에서 최첨단 성능을 향상시킵니다.

ABSTRACT

We investigate architectures of discriminatively trained deep Convolutional Networks (ConvNets) for action recognition in video. The challenge is to capture the complementary information on appearance from still frames and motion between frames. We also aim to generalise the best performing hand-crafted features within a data-driven learning framework. Our contribution is three-fold. First, we propose a two-stream ConvNet architecture which incorporates spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense optical flow is able to achieve very good performance in spite of limited training data. Finally, we show that multi-task learning, applied to two different action classification datasets, can be used to increase the amount of training data and improve the performance on both. Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous attempts to use deep nets for video classification.

연구 동기 및 목표

비디오 액션 인식을 위한 딥 러닝 동기를 보완적인 외관 및 모션 정보를 활용하여 강화합니다.
작용 분류를 위한 별도 공간 및 시간 네트워크와 최종 융합으로 구성된 두 스트림 CNN 아키텍처를 제안합니다.
참조 흐름 기반 입력 구성과 인식 성능에 대한 영향을 조사합니다.
다중 데이터셋으로의 학습 데이터를 융합하고 일반화 성능을 향상시키기 위한 다중 작업 학습을 탐구합니다.

제안 방법

공간(프레임 기반) 및 시간(모션 기반) 스트림을 갖는 두 스트림 ConvNet 아키텍처를 소개합니다.
스페이셜 스트림을 ImageNet에서 사전 학습하고 행동 인식을 위해 미세 조정하며, 늦은 융합으로 스트림 점수를 결합합니다.
다중 프레임 밀도 옵티컬 플로우 입력에서 작동하는 시간적 ConvNet를 설명합니다(두 가지 옵션: 옵티컬 플로우 스태킹 및 트래젝토리 스태킹).
카메라 모션에 대한 강건성을 평가하기 위해 평균 흐름 보정 및 양방향 흐름 변형을 실험합니다.
HMDB-51 및 UCF-101에서 작업별 소프트맥스 계층 및 손실을 사용하여 다중 작업 학습을 적용합니다.
UCF-101 및 HMDB-51의 세 가지 분할에 걸친 평균 정확도로 평가하고 최첨단 핸드크래프팅 및 딥 방법과 비교합니다.

실험 결과

연구 질문

RQ1공 appearance과 motion 신호를 활용하는 이중 스트림 CNN이 비디오 액션 인식에서 단일 스트림 접근법을 능가할 수 있는가?
RQ2다중 프레임 옵티컬 플로우 입력(및 그 변형)이 시간 특성 학습 및 정확도에 어떤 영향을 미치는가?
RQ3데이터셋 간의 다중 작업 학습이 행동 인식을 위한 시간적 CNN 일반화를 향상시키는가?

주요 결과

두 스트림 아키텍처는 공간적/시간적 보완 신호를 결합하여 성능을 향상시킨다.
멀티 프레임 스태킹이 적용된 옵티컬 플로우 입력으로 학습된 시간적 네트는 단일 프레임 또는 공간 네트보다 상당히 높은 정확도를 달성한다.
mean subtraction(카메라 모션 보정) 및 L=10 옵티컬 플로우 스태킹은 강력한 시간적 성능 향상을 가져온다.
HMDB-51과 UCF-101를 이용한 다중 작업 학습은 추가 훈련 데이터의 이점을 보여 최상의 시간적 네트 성능을 제공한다.
SVM으로 융합한 이중 스트림 모델은 평균 융합보다 우수하며, 다중 작업 학습으로 학습된 시간 스트림이 최상의 전체 결과를 달성한다.
UCF-101에서 SVM 융합을 가진 이중 스트림 모델은 평균 정확도 88.0%에 도달하고(스플릿 1), HMDB-51에서 59.4%에 이른다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.