Skip to main content
QUICK REVIEW

[논문 리뷰] Transfer Learning for Video Recognition with Scarce Training Data for Deep Convolutional Neural Network

Yu-Chuan Su, Tzu-Hsuan Chiu|arXiv (Cornell University)|2014. 09. 15.
Domain Adaptation and Few-Shot Learning참고 문헌 40인용 수 24
한 줄 요약

이 논문은 제한된 비디오 학습 데이터를 가진 비디오 인식을 위해 약한 레이블이 부여된 이미지 데이터셋에서 전이 학습을 제안한다. 사전 훈련된 이미지 모델로 DCN을 초기화하고 단지 4,000개의 레이블이 부여된 비디오에서 완전히 연결된 계층만 미세조정함으로써, 인간의 레이블링 노력 최소화와 함께 강력한 성능을 달성한다. 이는 전이 학습이 부족한 약한 감독 데이터 조건에서도 효과적인 비디오 인식을 가능하게 한다는 것을 보여준다.

ABSTRACT

Unconstrained video recognition and Deep Convolution Network (DCN) are two active topics in computer vision recently. In this work, we apply DCNs as frame-based recognizers for video recognition. Our preliminary studies, however, show that video corpora with complete ground truth are usually not large and diverse enough to learn a robust model. The networks trained directly on the video data set suffer from significant overfitting and have poor recognition rate on the test set. The same lack-of-training-sample problem limits the usage of deep models on a wide range of computer vision problems where obtaining training data are difficult. To overcome the problem, we perform transfer learning from images to videos to utilize the knowledge in the weakly labeled image corpus for video recognition. The image corpus help to learn important visual patterns for natural images, while these patterns are ignored by models trained only on the video corpus. Therefore, the resultant networks have better generalizability and better recognition rate. We show that by means of transfer learning from image to video, we can learn a frame-based recognizer with only 4k videos. Because the image corpus is weakly labeled, the entire learning process requires only 4k annotated instances, which is far less than the million scale image data sets required by previous works. The same approach may be applied to other visual recognition tasks where only scarce training data is available, and it improves the applicability of DCNs in various computer vision problems. Our experiments also reveal the correlation between meta-parameters and the performance of DCNs, given the properties of the target problem and data. These results lead to a heuristic for meta-parameter selection for future researches, which does not rely on the time consuming meta-parameter search.

연구 동기 및 목표

  • 깊이 있는 합성곱 신경망(DCNs)을 훈련하기 위해 부족한 레이블이 부여된 비디오 데이터 문제를 해결한다. 이는 심각한 과적합을 유발한다.
  • 프레임 수준 또는 픽셀 수준의 비디오 레이블링에 대한 높은 레이블링 비용 문제를 약한 레이블이 부여된 이미지 코퍼스를 활용하여 해결한다.
  • 대규모 이미지 데이터셋에서 학습된 시각적 패턴을 전이하여 최소한의 인간 레이블이 부여된 비디오 데이터로도 효과적인 비디오 인식을 가능하게 한다.
  • 네트워크 깊이 및 입력 해상도와 같은 메타파rameter가 낮은 데이터 환경에서 DCN 성능에 미치는 영향을 조사한다.
  • 이미지와 비디오 도메인이 다를지라도 이미지에서 비디오로의 전이 학습이 일반화 능력과 인식 정확도를 향상시킬 수 있는지 검증한다.

제안 방법

  • 약한 레이블이 부여된 대규모 이미지 코퍼스(예: Yahoo!-Flickr 또는 ILSVRC2012)에서 DCN을 사전 훈련하여 일반적인 시각적 특징을 학습한다.
  • 사전 훈련된 이미지 모델 가중치를 사용해 비디오 인식 네트워크를 초기화함으로써, 학습된 합성곱 필터를 비디오 작업으로 전이한다.
  • 합성곱 계층은 동결한 채로, 소규모 비디오 데이터셋(4,000개의 비디오)에서 완전히 연결된 계층만 미세조정하여 과적합을 방지한다.
  • 여러 이미지 소스(예: Yahoo!-Flickr 및 ILSVRC2012)에서의 전이 학습을 조합하여 비디오 인식 성능을 더욱 향상시킨다.
  • 비디오 클립에서 추출한 프레임 수준의 특징을 DCN의 입력으로 사용하며, 각 프레임을 인식을 위해 이미지로 간주한다.
  • CCV 비디오 데이터셋에서의 추론 실험을 통해 네트워크 깊이 및 입력 해상도가 성능에 미치는 영향을 분석한다.

실험 결과

연구 질문

  • RQ1약한 레이블이 부여된 이미지 데이터셋에서의 전이 학습이, 소수의 비디오 샘플만 존재할 경우 비디오 인식 성능 향상에 기여하는가?
  • RQ2합성곱 계층은 동결한 채로 완전히 연결된 계층만 미세조정하는 것이, 낮은 데이터 환경에서 엔드 투 엔드 미세조정보다 더 나은 일반화를 이끌어내는가?
  • RQ3사전 훈련 데이터셋의 선택(예: Yahoo!-Flickr 대비 ILSVRC2012)이 최종 비디오 인식기 성능에 어떤 영향을 미치는가?
  • RQ4네트워크 깊이 및 입력 해상도가 제한된 학습 데이터로 비디오 인식을 위한 DCN 성능에 어떤 영향을 미치는가?
  • RQ5도메인 간 차이가 존재하더라도, 약한 감독을 받는 이미지에서의 전이 학습이 여전히 비디오 작업에서 강력한 성능을 낼 수 있는가?

주요 결과

  • 합성곱 계층은 동결한 채로 완전히 연결된 계층만 미세조정하는 것이, 특히 제한된 학습 데이터 조건에서 과적합을 크게 줄이고 인식 정확도를 향상시킨다.
  • 이 방법은 단지 4,000개의 레이블이 부여된 비디오만으로도 강력한 성능을 달성하여, 전이 학습이 부족한 비디오 데이터로도 DCN 훈련이 가능하다는 것을 보여준다.
  • Yahoo!-Flickr와 같이 약한 레이블이 부여된 대규모 이미지 데이터셋에서의 사전 훈련은 비디오 데이터에 대한 고비용 인간 레이블링이 없이도 비디오 인식 성능 향상에 기여한다.
  • 더 깊은 네트워크를 사용할 경우, 더 정확한 레이블을 가진 ILSVRC2012 데이터셋은 Yahoo!-Flickr보다 더 강력한 감독을 제공하며 성능 향상에 기여한다.
  • 여러 이미지 소스(예: Yahoo!-Flickr 및 ILSVRC2012)에서의 사전 훈련을 조합하면 비디오 데이터셋에서의 인식 정확도가 더욱 향상된다.
  • 고해상도 입력은 일관되게 더 좋은 성능을 보이며, 특히 개체 수준 인식에서는 시나리오 수준 인식보다 더 두드러진 효과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.