Skip to main content
QUICK REVIEW

[논문 리뷰] The ImageNet Shuffle: Reorganized Pre-training for Video Event Detection

Pascal Mettes, D.C. Koelma|UvA-DARE (University of Amsterdam)|2016. 02. 23.
Multimodal Machine Learning Applications참고 문헌 27인용 수 72
한 줄 요약

이 논문은 21,814개의 클래스와 1,400만 장의 이미지를 포함하는 전체 ImageNet 계층을 하향식 및 상향식 융합 전략을 통해 균형 잡히고 일반적인 카테고리로 재조정하여 영상 이벤트 검출 성능을 향상시키는 것을 제안한다. 이러한 재조정된 계층에서 사전 훈련된 딥 네트워크는 TRECVID 2013 및 2015 벤치마크에서 표준 ImageNet 사전 훈련을 뛰어넘는 최신 기술 성능을 달성하며, 운동 및 음성 특징과의 융합 성능도 향상시킨다.

ABSTRACT

This paper strives for video event detection using a representation learned from deep convolutional neural networks. Different from the leading approaches, who all learn from the 1,000 classes defined in the ImageNet Large Scale Visual Recognition Challenge, we investigate how to leverage the complete ImageNet hierarchy for pre-training deep networks. To deal with the problems of over-specific classes and classes with few images, we introduce a bottom-up and top-down approach for reorganization of the ImageNet hierarchy based on all its 21,814 classes and more than 14 million images. Experiments on the TRECVID Multimedia Event Detection 2013 and 2015 datasets show that video representations derived from the layers of a deep neural network pre-trained with our reorganized hierarchy i) improves over standard pre-training, ii) is complementary among different reorganizations, iii) maintains the benefits of fusion with other modalities, and iv) leads to state-of-the-art event detection results. The reorganized hierarchies and their derived Caffe models are publicly available at http://tinyurl.com/imagenetshuffle.

연구 동기 및 목표

  • 표준 1,000개 클래스의 서브셋 대신 전체 ImageNet 계층을 활용하여 영상 이벤트 검출 성능을 향상시키기 위해.
  • ImageNet의 21,814개 클래스에서 발생하는 클래스 불균형과 과도한 특정성 문제를 해결하기 위해.
  • ImageNet 계층의 그래프 구조를 기반으로 하향식 및 상향식 두 가지 상호보완적인 재조정 전략을 개발하고 평가하기 위해.
  • 재조정된 사전 훈련에서 유도된 표현이 표준 사전 훈련보다 우수하며 다중모odal 융합 성능을 향상시킬 수 있음을 입증하기 위해.

제안 방법

  • ImageNet 계층의 잎 노드에서 시작하여 저수준의 과도하게 특정화된 클래스들을 더 넓은 일반 카테고리로 융합하는 상향식 접근법을 제안한다.
  • 계층의 상단에서 고수준의 일반적인 클래스를 선택하고 이를 균형 잡힌 카테고리로 확장하는 하향식 접근법을 개발한다.
  • 표준 1,000개 클래스 서브셋 대신 전체 ImageNet 데이터셋에서 재조정된 클래스 세트를 사용해 딥 컨volution 신경망(예: AlexNet)을 사전 훈련한다.
  • 사전 훈련된 네트워크의 최종 완전 연결 또는 소프트맥스 레이어에서 프레임 수준의 특징을 추출한다.
  • 평균 풀링을 통해 프레임 특징을 고정 크기의 영상 표현으로 통합한다.
  • 운동(모션 벡터 필드, MBH) 및 음성(MFCC) 특징과의 융합은 피셔 벡터 인코딩을 사용하며, 평균 풀링을 기준선으로 비교한다.

실험 결과

연구 질문

  • RQ1표준 1,000개 클래스 서브셋 대신 전체 ImageNet 계층(21,814개 클래스, 1,400만 장의 이미지)을 활용하면 영상 이벤트 검출 성능이 향상되는가?
  • RQ2ImageNet 계층의 상향식 및 하향식 재조정 전략이 사전 훈련 품질과 최종 검출 성능에 어떤 영향을 미치는가?
  • RQ3재조정된 사전 훈련에서 유도된 표현은 운동 및 음성 특징과 융합할 때 여전히 상호보완적인가?
  • RQ4재조정된 사전 훈련이 TRECVID 2013 및 2015와 같은 표준 벤치마크에서 최신 기술 성능을 달성할 수 있는가?

주요 결과

  • TRECVID 2013 테스트 세트에서, 제안된 방법은 오직 딥 특징만을 사용하여 100개의 이벤트당 영상 수가 100개인 작업에서 mAP 0.475를 달성했고, 10개의 이벤트당 영상 수가 10개인 작업에서는 mAP 0.324를 기록했다.
  • 운동 및 음성 특징을 융합한 결과, 100개의 이벤트당 영상 수가 100개인 작업에서 mAP는 0.526으로 향상되었고, 10개의 이벤트당 영상 수가 10개인 작업에서는 mAP 0.348로 상승하여 두 작업 모두 이전 최신 기술 성능을 뛰어넘었다.
  • TRECVID 2015 벤치마크에서, 이 방법은 모든 작업에서 상위 성능를 기록했으며, 딥 특징과 다중모달 융합 모두 최상위 성능를 달성했다.
  • 재조정된 사전 훈련 방법은 다른 모odal과 상호보완적인 것으로 밝혀졌다: 운동 및 음성 특징은 각각 딥 특징보다 성능가 떨어졌지만, 딥 특징과 융합했을 때 가장 높은 성능를 기록했다.
  • 사전 훈련된 Caffe 모델과 특징 추출 지침은 http://tinyurl.com/imagenetshuffle 에 공개되어 있어 최신 기술 영상 표현 학습에 직접 재사용이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.