QUICK REVIEW

[논문 리뷰] Temporal Pyramid Pooling Based Convolutional Neural Networks for Action Recognition

Peng Wang, Yuanzhouhan Cao|arXiv (Cornell University)|2015. 03. 04.

Human Pose and Action Recognition참고 문헌 24인용 수 35

한 줄 요약

이 논문은 고정된 입력 크기를 가진 표준 CNN과 호환되지 않는 다양한 프레임 수를 가진 영상에서 행동 인식을 가능하게 하기 위해 외관 및 운동 특징을 인코딩 레이어와 다중 수준 시간 풀링을 통해 통합하는 시간 피라미드 풀링(TPP) 기반의 CNN 아키텍처를 제안한다. 사전 훈련된 이미지 CNN을 사용한 초기화를 통해 소규모 훈련 데이터로도 최신 기술 수준(SOTA)의 성능을 달성한다.

ABSTRACT

Encouraged by the success of Convolutional Neural Networks (CNNs) in image classification, recently much effort is spent on applying CNNs to video based action recognition problems. One challenge is that video contains a varying number of frames which is incompatible to the standard input format of CNNs. Existing methods handle this issue either by directly sampling a fixed number of frames or bypassing this issue by introducing a 3D convolutional layer which conducts convolution in spatial-temporal domain. To solve this issue, here we propose a novel network structure which allows an arbitrary number of frames as the network input. The key of our solution is to introduce a module consisting of an encoding layer and a temporal pyramid pooling layer. The encoding layer maps the activation from previous layers to a feature vector suitable for pooling while the temporal pyramid pooling layer converts multiple frame-level activations into a fixed-length video-level representation. In addition, we adopt a feature concatenation layer which combines appearance information and motion information. Compared with the frame sampling strategy, our method avoids the risk of missing any important frames. Compared with the 3D convolutional method which requires a huge video dataset for network training, our model can be learned on a small target dataset because we can leverage the off-the-shelf image-level CNN for model parameter initialization. Experiments on two challenging datasets, Hollywood2 and HMDB51, demonstrate that our method achieves superior performance over state-of-the-art methods while requiring much fewer training data.

연구 동기 및 목표

표준 고정 입력 크기의 CNN과 호환되지 않는 다양한 길이의 영상 입력 문제를 해결하기 위해 CNN 기반 행동 인식에서 변수 길이의 영상 입력을 다루는 것.
화면 샘플링의 위험을 피하고 대규모 영상 데이터셋에 대한 의존도를 줄이기 위해 소규모 타겟 데이터셋에서 엔드 투 엔드 훈련이 가능하도록 하는 것.
계층적 풀링을 통해 시간적 구조를 명시적으로 모델링하여 영상 수준의 표현 학습을 향상시키는 것.
조기 융합을 통해 외관 및 운동 특징을 효과적으로 융합하여 인식 정확도를 향상시키는 것.

제안 방법

변형된 길이의 프레임 활성화를 고정 길이의 영상 수준 표현으로 변환하기 위해 인코딩 레이어와 시간 피라미드 풀링 레이어를 조합한 새로운 네트워크 모듈을 도입한다.
외관 특징(사전 훈련된 ImageNet CNN에서 유도)을 위한 하나, 운동 특징(밀도 있는 궤적과 MBH 기술자)을 위한 하나로 구성된 이중 스트림 아키텍처를 사용한다.
전체 영상 및 b개의 세그먼트로 나누어진 영상의 다중 수준 시간 풀링을 적용하여 다중 척도의 시간 동적 특성을 캡처한다.
최종 분류 이전에 외관 및 운동 특징을 조기 융합하기 위해 특징 연결 레이어를 사용한다.
과적합을 줄이기 위해 사전 훈련된 ImageNet CNN(예: GoogLeNet)을 사용해 특징 추출 및 가중치 초기화를 수행한다.
운동 특징에 대해 피셔 벡터 인코딩을 적용하며, 이는 이미 풀링 준비가 된 상태이다. 반면, CNN의 최종 합성곱 레이어에서 유도된 활성화 맵에는 추가적인 인코딩 레이어를 적용한다.

실험 결과

연구 질문

RQ1CNN 기반 행동 인식 모델이 화면 샘플링 없이도 3D 컨볼루션을 사용하지 않고 다양한 길이의 영상 입력을 처리할 수 있는가?
RQ2시간 피라미드 풀링이 다중 척도의 시간적 구조를 모델링함으로써 영상 수준의 표현을 향상시키는가?
RQ3조기 융합 방식이 행동 인식에서 후기 융합 방식보다 우수한 성능을 낼 수 있는가?
RQ43D CNN에 비해 제안된 방법이 대규모 영상 데이터셋이 필요한 정도를 어느 정도 줄일 수 있는가?

주요 결과

Hollywood2 데이터셋에서 제안된 방법은 조기 융합을 사용할 경우 67.5%의 정확도를 달성하여 후기 융합(64.7%)보다 2.8%p 높은 성능을 보였다.
HMDB51 데이터셋에서 방법은 조기 융합을 통해 59.7%의 정확도를 기록했으며, 후기 융합(57.7%)보다 2%p 향상되었다.
최적의 시간 피라미드 구조는 b=5 세그먼트를 사용했으며, Hollywood2에서 44.2%의 정확도, HMDB51에서 41.3%의 정확도를 기록하여 기준 모델(b=0)보다 각각 6.0%p와 2.8%p 높은 성능을 보였다.
3D CNN에 비해 훨씬 적은 훈련 데이터로도 Hollywood2와 HMDB51 양쪽에서 최신 기술 수준의 성능을 달성했다.
인코딩 레이어는 CNN 합성곱 특징(예: FC7)에 있어 상당한 이점을 제공하지만, 이미 인코딩된 운동 특징(예: 피셔 벡터)에는 거의 기여하지 않아, 이 레이어가 특징 표준화에 기여한다는 점을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.