QUICK REVIEW

[논문 리뷰] Real-time Action Recognition with Enhanced Motion Vector CNNs

Bowen Zhang, Limin Wang|arXiv (Cornell University)|2016. 04. 26.

Human Pose and Action Recognition참고 문헌 26인용 수 52

한 줄 요약

이 논문은 계산적 병목 현상을 제거하기 위해 광학 흐름 대신 운동 벡터(MV)를 사용하는 실시간 동작 인식 방법을 제안한다. 사전 훈련된 광학 흐름 CNN에서 MV 기반 CNN으로 지식을 전이하기 위해 초기화, 감독, 병합된 디스틸레이션을 활용함으로써, 390.7 fps의 상태최저 성능 정확도를 달성한다—이중 스트림 네트워크 대비 27배 빠르며, UCF101 및 THUMOS14 데이터셋에서 높은 성능를 유지한다.

ABSTRACT

The deep two-stream architecture exhibited excellent performance on video based action recognition. The most computationally expensive step in this approach comes from the calculation of optical flow which prevents it to be real-time. This paper accelerates this architecture by replacing optical flow with motion vector which can be obtained directly from compressed videos without extra calculation. However, motion vector lacks fine structures, and contains noisy and inaccurate motion patterns, leading to the evident degradation of recognition performance. Our key insight for relieving this problem is that optical flow and motion vector are inherent correlated. Transferring the knowledge learned with optical flow CNN to motion vector CNN can significantly boost the performance of the latter. Specifically, we introduce three strategies for this, initialization transfer, supervision transfer and their combination. Experimental results show that our method achieves comparable recognition performance to the state-of-the-art, while our method can process 390.7 frames per second, which is 27 times faster than the original two-stream method.

연구 동기 및 목표

광학 흐름 계산이 비용이 많이 들기 때문에 두 스트림 CNN의 실시간 처리 제한을 해결한다.
광학 흐름 대신 굵은 노이즈가 있는 운동 벡터를 사용함으로써 발생하는 성능 저하를 완화한다.
광학 흐름과 운동 벡터 간의 상관관계를 활용해 광학 흐름 CNN에서 운동 벡터 CNN으로 세밀한 운동 지식을 전이한다.
정확도를 희생시키지 않고 영상 처리를 실시간으로 수행할 수 있는 빠른 종단 간 동작 인식 시스템을 개발한다.

제안 방법

광학 흐름을 대체하기 위해 압축된 비디오 파일에서 직접 추출한 운동 벡터를 사용함으로써 별도의 광학 흐름 계산이 필요 없도록 한다.
사전 훈련된 광학 흐름 CNN(선생 모델)의 특징을 전이하기 위해 지식 디스틸레이션 기법을 사용하여 운동 벡터 CNN(MV-CNN)을 학생 모델로 훈련시킨다.
세 가지 지식 전이 전략을 적용한다: (1) 초기화 전이 — 훈련된 광학 흐름 CNN의 첫 번째 컨벌루션 필터로 MV-CNN을 초기화하고, (2) 감독 전이 — 광학 흐름 CNN의 소프트 레이블을 사용해 MV-CNN 훈련을 감독하며, (3) 병합 전이 — 두 방법을 함께 사용한다.
RGB 및 운동 벡터 스트림을 별도로 처리한 후 최종 분류를 위해 융합하는 이중 스트림 아키텍처를 사용한다.
테스트 중에 광학 흐름 추정을 피하기 위해 오직 운동 벡터 디코딩에 의존함으로써 추론 속도를 최적화한다.
첫 번째 합성곱층의 필터를 시각화하여 지식 디스틸레이션으로 인해 MV-CNN의 특징 품질 향상과 노이즈 감소가 이루어졌음을 정성적으로 검증한다.

실험 결과

연구 질문

RQ1압축된 비디오에서 추출한 운동 벡터가 광학 흐름을 대체할 수 있을까? 정확도 손실가능성이 크지 않은가?
RQ2사전 훈련된 광학 흐름 CNN에서 유래한 지식이 운동 벡터 CNN의 성능 향상에 얼마나 기여하는가?
RQ3광학 흐름에서 굵은 운동 벡터로 세밀한 운동 패tern을 전이하는 데 가장 효과적인 지식 디스틸레이션 기법은 무엇인가?
RQ4운동 벡터 기반 CNN은 광학 흐름 기반 이중 스트림 네트워크와 동등한 정확도를 유지하면서도 실시간 추론 속도를 달성할 수 있는가?

주요 결과

제안된 방법은 UCF101에서 390.7 fps, THUMOS14에서 403.2 fps를 기록하여 원래의 이중 스트림 방법 대비 27배 빠르고, iDT+CNN 대비 200배 빠르다.
지식 디스틸레이션을 통해 운동 벡터 CNN(EMV-CNN)은 THUMOS14에서 평균 정밀도 61.5%를 달성하여 MV+FV(44.7%)를 초월하고 iDT+FV(63.1%)와 동등한 성능를 보였으며, 훨씬 더 빠른 속도를 확보했다.
EMV-CNN 모델은 UCF101(3-스플릿)에서 88.2%의 정확도를 기록하여 C3D(1 넷)보다 4.1% 높고, C3D(3 넷)보다 1.2% 높았으며, 운동 벡터만을 사용했음에도 불구하고 성능을 확보했다.
필터 시각화 결과 EMV-CNN은 MV-CNN보다 더 깔끔하고 구조적인 특징을 학습하는 것으로 나타났으며, 광학 흐름 CNN으로부터의 성공적인 지식 전이가 확인되었다.
GPU에서 브록스 광학 흐름 추정 대비 운동 벡터 추출 속도가 44배 빠르며, 실시간 대비 30배 빠르므로 실시간 시스템에 이상적이다.
초기화 전이와 감독 전이의 조합이 가장 높은 성능를 보였으며, 이는 다중 모odal 지식 디스틸레이션이 운동 표현 향상에 효과적임을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.