QUICK REVIEW

[論文レビュー] Transfer Learning for Video Recognition with Scarce Training Data for Deep Convolutional Neural Network

Yu-Chuan Su, Tzu-Hsuan Chiu|arXiv (Cornell University)|Sep 15, 2014

Domain Adaptation and Few-Shot Learning参考文献 40被引用数 24

ひとこと要約

この論文は、限られた動画学習データを用いた動画認識のための深層畳み込みネットワーク（DCN）を、弱ラベル付きの画像データセットからの転移学習によって訓練する手法を提案する。事前学習済みの画像モデルでDCNを初期化し、わずか4,000本のラベル付き動画での全結合層のファインチューニングのみを実行することで、人的ラベル付け作業を最小限に抑えつつ優れた性能を達成した。これは、転移学習が、限られた弱教師ありデータですら効果的な動画認識を可能にすることを示している。

ABSTRACT

Unconstrained video recognition and Deep Convolution Network (DCN) are two active topics in computer vision recently. In this work, we apply DCNs as frame-based recognizers for video recognition. Our preliminary studies, however, show that video corpora with complete ground truth are usually not large and diverse enough to learn a robust model. The networks trained directly on the video data set suffer from significant overfitting and have poor recognition rate on the test set. The same lack-of-training-sample problem limits the usage of deep models on a wide range of computer vision problems where obtaining training data are difficult. To overcome the problem, we perform transfer learning from images to videos to utilize the knowledge in the weakly labeled image corpus for video recognition. The image corpus help to learn important visual patterns for natural images, while these patterns are ignored by models trained only on the video corpus. Therefore, the resultant networks have better generalizability and better recognition rate. We show that by means of transfer learning from image to video, we can learn a frame-based recognizer with only 4k videos. Because the image corpus is weakly labeled, the entire learning process requires only 4k annotated instances, which is far less than the million scale image data sets required by previous works. The same approach may be applied to other visual recognition tasks where only scarce training data is available, and it improves the applicability of DCNs in various computer vision problems. Our experiments also reveal the correlation between meta-parameters and the performance of DCNs, given the properties of the target problem and data. These results lead to a heuristic for meta-parameter selection for future researches, which does not rely on the time consuming meta-parameter search.

研究の動機と目的

深層畳み込みネットワーク（DCN）の学習に必要なラベル付き動画データが不足する問題に対処すること。
フレームレベルやピクセルレベルの動画ラベル付けにかかる高コストを、弱ラベル付きの画像コーパスを活用することで軽減すること。
大規模な画像データセットから学習した視覚的パターンを転移することで、最小限の人的ラベル付き動画データでの効果的な動画認識を可能にすること。
ネットワークの深さや入力解像度といったメタパrameterが、低データ環境下におけるDCN性能に与える影響を調査すること。
画像と動画のドメインが異なる場合でも、画像から動画への転移学習が一般化性能と認識精度を向上させることを実証すること。

提案手法

一般視覚特徴を学習するため、大規模な弱ラベル付き画像コーパス（例：Yahoo!-Flickr や ILSVRC2012）でDCNを事前学習する。
事前学習済みの画像モデルの重みを用いて、動画認識用のネットワークを初期化し、学習済みの畳み込みフィルタを動画タスクに転送する。
畳み込み層を凍結したまま、小規模な動画データセット（4,000本の動画）でDCNの全結合層のみをファインチューニングすることで、過学習を防ぐ。
複数の画像ソース（例：Yahoo!-Flickr と ILSVRC2012）からの事前学習を組み合わせることで、動画認識性能をさらに向上させる。
動画クリップから抽出したフレームレベルの特徴量をDCNの入力とし、各フレームを認識用の画像として扱う。
CCV動画データセットを用いたアブレーションスタディにより、ネットワークの深さと入力解像度が性能に与える影響を評価する。

実験結果

リサーチクエスチョン

RQ1弱ラベル付きの画像データセットからの転移学習が、少数の動画サンプルしか利用できない状況でも、動画認識性能を向上させることができるか？
RQ2畳み込み層を凍結したまま全結合層のみをファインチューニングする方法が、低データ環境下でエンドツーエンドのファインチューニングよりも優れた一般化性能を達成するか？
RQ3事前学習に用いるデータセットの選択（例：Yahoo!-Flickr と ILSVRC2012 の比較）が、最終的な動画認識器の性能に与える影響は何か？
RQ4ネットワークの深さと入力解像度が、限られた学習データでのDCN性能に与える影響は何か？
RQ5ドメインのシフトが生じるにもかかわらず、弱教師ありの画像データからの転移学習が、依然として動画タスクで優れた性能を発揮できるか？

主な発見

畳み込み層を凍結したまま全結合層のみをファインチューニングすることで、特に限られた学習データ下で過学習が顕著に軽減され、認識精度が向上する。
わずか4,000本のラベル付き動画でのみ強力な性能を達成した。これは、転移学習により、限られた動画データでもDCNの学習が可能であることを示している。
Yahoo!-Flickr のような弱ラベル付き画像データセットで事前学習することで、動画データに対する人的ラベル付けコストをかけずに、動画認識性能が向上する。
ラベルの精度がより高いILSVRC2012データセットは、より強い監視信号を提供し、特に深層ネットワークを用いる場合、Yahoo!-Flickr よりも優れた性能を発揮する。
複数の画像ソース（例：Yahoo!-Flickr と ILSVRC2012）からの事前学習を組み合わせることで、動画データセットにおける認識精度がさらに向上する。
高解像度の入力は一貫して優れた性能を示すが、特にオブジェクトレベルの認識において、その利点が顕著に現れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。