QUICK REVIEW

[논문 리뷰] Transfer Learning for Video Recognition with Scarce Training Data.

Yu-Chuan Su, Tzu-Hsuan Chiu|arXiv (Cornell University)|2014. 09. 15.

Human Pose and Action Recognition참고 문헌 25인용 수 4

한 줄 요약

이 논문은 약한 레이블이 부여된 이미지 데이터셋에서 비디오 인식으로의 전이 학습을 제안하여, 단지 4,000개의 레이블이 부여된 비디오만으로도 강건한 프레임 기반 비디오 분류가 가능하게 한다. 사전 훈련된 이미지 특징을 활용함으로써 과적합을 줄이고, 대규모 비디오 레이블링이 필요 없이도 높은 정확도를 달성하며, 딥 러닝을 통한 비디오 인식의 데이터 요구량을 크게 낮춘다.

ABSTRACT

Abstract—Unconstrained video recognition and Deep Convo-lution Network (DCN) are two active topics in computer vision recently. In this work, we apply DCNs as frame-based recognizers for video recognition. Our preliminary studies, however, show that video corpora with complete ground truth are usually not large and diverse enough to learn a robust model. The networks trained directly on the video data set suffer from significant overfitting and have poor recognition rate on the test set. The same lack-of-training-sample problem limits the usage of deep models on a wide range of computer vision problems where obtaining training data are difficult. To overcome the problem, we perform transfer learning from images to videos to utilize the knowledge in the weakly labeled image corpus for video recognition. The image corpus help to learn important visual patterns for natural images, while these patterns are ignored by models trained only on the video corpus. Therefore, the resultant networks have better generalizability and better recognition rate. We show that by means of transfer learning from image to video, we can learn a frame-based recognizer with only 4k videos. Because the image corpus is weakly labeled, the entire learning process requires only 4k annotated instances, which is far less than the million scale image data sets required by previous works. The same approach may be applied to other visual recognition tasks where only scarce training data is available, and it improves the applicability of DCNs in various computer vision problems. Our experiments also reveal the correlation between meta-parameters and the performance of DCNs, given the properties of the target problem and data. These results lead to a heuristic for meta-parameter selection for future researches, which does not rely on the time consuming meta-parameter search.

연구 동기 및 목표

딥 러닝 비디오 인식 모델에서 과적합을 유도하는 제한적이고 다양한 비디오 데이터셋의 문제를 해결한다.
대규모 약한 레이블이 부여된 이미지 데이터셋에서 지식을 전이하여 비디오 인식의 데이터 부족 문제를 해결한다.
최소한의 비디오 레이블링만으로도 모델의 일반화 능력과 테스트 성능을 향상시키는 전이 학습 프레임워크를 개발한다.
대규모 비디오 레이블링 수집이 비현실적인 비디오 인식 작업에 딥 컨volution 네트워크(DCN)의 적용을 가능하게 한다.
시간 소모가 큰 초모수 조정에 의존하지 않는 초모수 선택 히ュ리스틱을 제공한다.

제안 방법

대규모 이미지 데이터셋(예: ImageNet)에서 사전 훈련된 딥 컨volution 네트워크(DCN)를 비디오 프레임 분류에 맞춤 조정한다.
사전 훈련된 이미지 특징을 비디오 인식의 강력한 초기화로 사용하여 자연 이미지에서의 일반적인 시각적 패턴을 캡처한다.
추가적인 데이터 증강 또는 강한 감독 없이도 단지 4,000개의 레이블이 부여된 비디오 데이터셋에서 네트워크를 엔드 투 엔드로 훈련한다.
이미지 코퍼스의 약한 레이블 특성을 활용하여 대규모 비디오 레이블링이 필요 없도록 한다.
이미지에서 비디오로의 시각 지식 전이를 통해 전이 학습을 적용함으로써 저자원 환경에서의 특징 표현을 향상시킨다.
경험적 분석을 통해 데이터 및 문제 특성에 기반한 초모수 선택 히ュ리스틱을 유도하여 체계적 검색을 피한다.

실험 결과

연구 질문

RQ1약한 레이블이 부여된 이미지 데이터셋에서의 전이 학습이, 비디오 샘플 수가 매우 적은 경우 비디오 인식 성능을 크게 향상시킬 수 있는가?
RQ2약한 레이블이 부여된 이미지 데이터에서의 사전 훈련이, 동일한 작은 비디오 데이터셋에서 랜덤 초기화로 훈련하는 것에 비해 DCN의 일반화 능력을 어떻게 향상시키는가?
RQ3다양한 초모수(예: 학습률, 가중치 감쇠)가 저자원 비디오 인식 환경에서 DCN 성능에 어떤 영향을 미치는가?
RQ4경험적 결과에서 유도된 히ュ리스틱을 통해 계산 비용이 큰 초모수 검색에 의존하지 않고도 초모수 선택이 가능한가?
RQ5비디오 데이터가 제한적이고 다양한 경우, 이미지에서 학습한 시각 패턴이 비디오 데이터의 인식 정확도에 얼마나 기여하는가?

주요 결과

약한 레이블이 부여된 이미지 데이터셋에서의 전이 학습을 통해 단지 4,000개의 레이블이 부여된 비디오만으로도 강건한 프레임 기반 비디오 인식기 학습이 가능해지며, 데이터 요구량이 크게 감소한다.
학습된 시각 패턴의 전이 덕분에 동일한 작은 비디오 데이터셋에서 랜덤 초기화로 훈련하는 것보다 더 뛰어난 일반화 능력과 높은 테스트 정확도를 달성한다.
약한 레이블이 부여된 이미지 데이터의 사용은 대규모로 완전히 레이블링된 비디오 데이터셋이 필요 없음을 보여주며, 저자원 도메인으로의 확장 가능성을 보장한다.
수백만 개의 레이블이 부여된 이미지가 필요한 이전 방법들보다도 본 연구에서 제안한 방법이 저자원 환경에서 효율적이고 효과적임을 입증한다.
경험적 결과에서 도출된 초모수 선택 히ュ리스틱은 향후 비디오 인식 작업에서 시간 소모가 큰 초모수 조정의 필요성을 줄였다.
연구는 초모수와 모델 성능 간의 강한 상관관계를 규명하였으며, 유사한 저자원 문제에 대해 데이터 기반의 구성 전략 수립이 가능함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.