QUICK REVIEW

[논문 리뷰] Efficient Two-Stream Motion and Appearance 3D CNNs for Video Classification

Ali Diba, Ali Mohammad Pazandeh|arXiv (Cornell University)|2016. 08. 31.

Human Pose and Action Recognition인용 수 36

한 줄 요약

이 논문은 사전에 계산된 광학 흐름에 의존하지 않고 RGB 비디오 클립에서 외관 및 운동 표현을 동시에 학습하는 엔드 투 엔드 두 개의 스트림 3D-CNN 아키텍처를 제안한다. 이는 UCF101에서 최신 기술 수준의 정확도를 달성하면서도 1초당 200 프레임 이상의 속도로 비디오를 처리하여, 외부 광학 흐름 계산이 필요한 두 개의 스트림 방법보다 훨씬 빠른 성능을 보인다.

ABSTRACT

The video and action classification have extremely evolved by deep neural networks specially with two stream CNN using RGB and optical flow as inputs and they present outstanding performance in terms of video analysis. One of the shortcoming of these methods is handling motion information extraction which is done out side of the CNNs and relatively time consuming also on GPUs. So proposing end-to-end methods which are exploring to learn motion representation, like 3D-CNN can achieve faster and accurate performance. We present some novel deep CNNs using 3D architecture to model actions and motion representation in an efficient way to be accurate and also as fast as real-time. Our new networks learn distinctive models to combine deep motion features into appearance model via learning optical flow features inside the network.

연구 동기 및 목표

두 개의 스트림 CNN을 위한 비디오 동작 인식에서 광학 흐름을 추출하는 데 드는 높은 계산 비용을 해결하기 위해.
C3D와 같은 3D-CNN이 시간적 동역학을 포착하는 데 한계가 있는 점을 보완하기 위해, 네트워크 내부에 운동 표현 학습을 통합하기 위해.
행동 분류와 운동 특징 학습을 동시에 최적화하는 통합된 엔드 투 엔드 학습 가능한 3D-CNN 프레임워크를 개발하기 위해.
외부 광학 흐름 계산이 필요 없이 두 개의 스트림 네트워크 수준의 정확도에 근접하면서도 실시간 추론이 가능한 성능을 달성하기 위해.

제안 방법

한 스트림은 RGB 프레임을 처리하고, 다른 스트림은 3D 컨볼루션을 사용하여 비디오 클립에서 직접 운동 표현을 학습하는 두 개의 스트림 3D-CNN 아키텍처를 설계한다.
외관 스트림은 Sports-1M에서 사전 훈련된 3D-ConvNet을 사용하고, UCF101에서 행동 분류를 위해 미세조정한다.
비디오 클립에서 광학 흐름을 재구성하기 위해 브록스의 방법을 사용하여 지도 학습을 위한 진짜 값 광학 흐름을 제공하며, 3D-DeconvNet을 새로 훈련한다.
행동 분류와 광학 흐름 추정을 엔드 투 엔드 방식으로 동시에 최적화하는 공유 가중치 3D-CNN 아키텍처를 도입한다.
최종 분류를 위해 외관 스트림과 운동 스트림의 특징을 연결하여 선형 SVM을 사용한다.
외관 스트림의 C3D 특징와 운동 스트림의 마지막 합성곱층에서 추출한 중간 수준의 특징을 융합하여 특징 수준의 융합을 수행한다.

실험 결과

연구 질문

RQ13D-CNN 아키텍처가 사전에 계산된 광학 흐름에 의존하지 않고 엔드 투 엔드 방식으로 효과적인 운동 표현을 학습할 수 있는가?
RQ2행동 분류와 광학 흐름 추정을 함께 훈련시키는 것이 분류 정확도와 추론 속도에 어떤 영향을 미치는가?
RQ3사전에 계산된 흐름을 사용하는 두 개의 스트림 CNN과 비교해도 성능이 유사하면서도 더 빠르고 효율적인 두 개의 스트림 3D-CNN 아키텍처를 구현할 수 있는가?
RQ4외관 스트림과 운동 스트림 간의 특징 융합이 비디오 분류 정확도에 어떤 영향을 미치는가?
RQ5기존의 두 개의 스트림 및 3D-CNN 기반 방법과 비교해보았을 때, 제안된 방법의 추론 속도는 어떠한가?

주요 결과

제안된 엔드 투 엔드 두 개의 스트림 3D-CNN은 UCF101에서 평균 90.2%의 정확도를 달성하여 C3D(82.3%)를 뛰어넘고, 다른 두 개의 스트림 방법과도 유사하거나 이를 초월한다.
이 방법은 1초당 246 프레임의 속도로 비디오를 처리하여, 두 개의 스트림 CNN 기반 방법(14.3 fps)보다 훨씬 빠르며, 실시간 추론을 가능하게 한다.
공유 가중치 엔드 투 엔드 네트워크(Ours-Twostream 3Dnet)는 90.2%의 정확도와 246 fps의 속도를 달성하여, 공동 학습이 속도와 성능 양면에서 향상된다는 것을 입증한다.
제거 실험 결과, 중간 수준의 운동 특징과 C3D 외관 특징을 융합함으로써 정확도가 85.2%에서 87.0%로 향상됨을 확인했다.
외부 광학 흐름 계산 없이 훈련된 모델은 iDT+FV(2.1 fps)처럼 사전에 계산된 흐름에 의존하는 방법보다 더 빠른 속도를 기록했다.
결과적으로, 네트워크 내부에서 운동 표현을 학습하는 것이 외부 흐름 계산에 의존하는 것보다 더 효율적이고 효과적이라는 점을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.