QUICK REVIEW

[논문 리뷰] Action Recognition with Image Based CNN Features

Mahdyar Ravanbakhsh, Hossein Mousavi|arXiv (Cornell University)|2015. 12. 13.

Human Pose and Action Recognition참고 문헌 40인용 수 60

한 줄 요약

이 논문은 사전 훈련된 ImageNet CNN 특징(fc7)를 사용하여 비디오 동작 인식을 위한 계층적 CNN 특징 표현을 제안한다. 이는 비디오 데이터에 대한 미세조정 없이도 가능하다. fc7 특징의 시간적 변화를 이진 코드화하여 적용하고, 비트 전이를 기반으로 关键 프레임을 추출함으로써, 다중 수준 피라미드 구조를 통해 운동을 포착한다. 이는 KTH, UCF-Sports, UCF-11 데이터셋에서 최신 기술 수준의 정확도를 달성한다.

ABSTRACT

Most of human actions consist of complex temporal compositions of more simple actions. Action recognition tasks usually relies on complex handcrafted structures as features to represent the human action model. Convolutional Neural Nets (CNN) have shown to be a powerful tool that eliminate the need for designing handcrafted features. Usually, the output of the last layer in CNN (a layer before the classification layer -known as fc7) is used as a generic feature for images. In this paper, we show that fc7 features, per se, can not get a good performance for the task of action recognition, when the network is trained only on images. We present a feature structure on top of fc7 features, which can capture the temporal variation in a video. To represent the temporal components, which is needed to capture motion information, we introduced a hierarchical structure. The hierarchical model enables to capture sub-actions from a complex action. At the higher levels of the hierarchy, it represents a coarse capture of action sequence and lower levels represent fine action elements. Furthermore, we introduce a method for extracting key-frames using binary coding of each frame in a video, which helps to improve the performance of our hierarchical model. We experimented our method on several action datasets and show that our method achieves superior results compared to other state-of-the-arts methods.

연구 동기 및 목표

이미지 기반 CNN 특징을 유일한 입력으로 사용하여 비디오에서 인간의 동작을 인식하는 데 도전하는 것. 이는 고비용의 비디오 전용 훈련을 피하기 위함이다.
수동으로 설계된 공간-시간 기반 기술자에 의존하지 않고, 사전 훈련된 CNN 특징(fc7)의 공간-시간 변화를 이용하여 비디오의 시간적 역학을 모델링하는 것.
fc7 특징의 이진 코드화를 기반으로 한 새로운 关键 프레임 추출 방법을 도입하여 정보가 풍부한 비디오 세그먼트에 집중함으로써 동작 인식 정확도를 향상시키는 것.
비디오 스니펫에서 거시적에서 미세한 하위 동작까지의 계층적 모델링을 다중 수준 피라미드 구조를 통해 수행하는 것.
이미지 기반 CNN 특징에 시간적 모델링과 关键 프레임 선택을 추가로 적용할 경우, 표준 벤치마크에서 최신 기술 수준의 방법을 초월할 수 있음을 입증하는 것.

제안 방법

ImageNet에서 사전 훈련된 CNN(예: GoogLeNet)을 사용하여 비디오의 각 프레임에서 fc7 특징을 추출한다.
벡터 양자화 또는 해싱을 통해 각 fc7 특징을 짧은 이진 코드로 변환하여 효율적인 시간적 비교를 가능하게 한다.
연속된 프레임 간의 이진 코드에서 비트 전이를 감지하여 关键 프레임을 식별하고, 특징 변화가 뚜렷한 세그먼트를 선택한다.
연속된 关键 프레임 사이의 비디오를 스니펫으로 나누고, 다중 시간 스케일에서 동작을 모델링하기 위해 계층적 피라미드 구조를 적용한다.
피라미드의 각 수준에서 차원 감소를 위해 PCA를 적용하고, 모든 수준을 연결하여 단일 비디오 수준의 기술자로 구성한다.
기본 기술자에서 시간적 단어의 히스토그램을 구성하고, 분류기(예: SVM)를 훈련하여 동작 인식을 수행한다.

실험 결과

연구 질문

RQ1시간 모델링을 추가로 적용할 경우, 사전 훈련된 이미지 기반 CNN 특징(fc7)만으로도 경쟁적인 동작 인식 성능를 달성할 수 있는가?
RQ2fc7 특징의 이진 코드화가 정보가 풍부한 비디오 세그먼트를 탐지하고 关键 프레임을 추출하는 데 얼마나 효과적인가?
RQ3다중 시간 해상도에서 하위 동작을 모델링하는 계층적 피라미드 구조는 어느 정도 동작 인식 정확도를 향상시키는가?
RQ4이진 코드 크기, 윈도우 길이, 피라미드 깊이 등의 하이퍼파라미터는 정확도에 어떤 영향을 미치는가?
RQ5제안된 방법이 표준 동작 인식 벤치마크에서 기존 최신 기술 수준의 방법을 초월하는가?

주요 결과

제안된 방법은 KTH 데이터셋에서 최신 기술 수준의 정확도를 달성하였으며, 이진 코드 크기 16과 피라미드 수준 4개를 사용할 경우 최고 성능 94.0%를 기록하였다.
UCF-Sports 데이터셋에서는 20프레임의 겹침 윈도우와 4개의 피라미드 수준을 사용할 경우 최고 성능 98.0%를 달성하여 짧은 비디오 클립에 대한 강건성을 입증하였다.
UCF-11에서는 25중에 하나를 제외하는 교차검증을 실시한 결과, 이전 최신 기술 수준의 방법을 능가하는 우수한 성능을 기록하였으며, 정확도 향상이 보고되었다.
피라미드 수준 수를 늘릴수록 정확도가 향상되었으며, 이는 미세한 시간적 모델링이 성능 향상에 기여함을 시사한다.
모든 데이터셋에서 일관된 성능 향상이 관찰되었으며, 이진 코드 크기 16과 윈도우 크기 20–30 프레임에서 최적의 성능를 달성하였다.
KTH에서의 혼동 행렬 분석 결과, 모든 동작 클래스에서 높은 정확도를 기록하였으며, '걷기'와 '방향 전환' 동작에서 개별 클래스 정확도가 각각 100%에 도달하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.