QUICK REVIEW

[論文レビュー] What makes ImageNet good for transfer learning?

Minyoung Huh, Pulkit Agrawal|arXiv (Cornell University)|Aug 30, 2016

Domain Adaptation and Few-Shot Learning参考文献 53被引用数 308

ひとこと要約

この論文は実証的にImageNetデータのどの側面（スケール、クラス数、粒度、データ分割）が転移学習の性能を実際に左右するかを分析し、データ量やクラスの豊富さに関する多くの一般的信念は以前思われていたほど重要ではないことを明らかにしている。

ABSTRACT

The tremendous success of ImageNet-trained deep features on a wide range of transfer tasks begs the question: what are the properties of the ImageNet dataset that are critical for learning good, general-purpose features? This work provides an empirical investigation of various facets of this question: Is more pre-training data always better? How does feature quality depend on the number of training examples per class? Does adding more object classes improve performance? For the same data budget, how should the data be split into classes? Is fine-grained recognition necessary for learning good features? Given the same number of training classes, is it better to have coarse classes or fine-grained classes? Which is better: more classes or more examples per class? To answer these and related questions, we pre-trained CNN features on various subsets of the ImageNet dataset and evaluated transfer performance on PASCAL detection, PASCAL action classification, and SUN scene classification tasks. Our overall findings suggest that most changes in the choice of pre-training data long thought to be critical do not significantly affect transfer performance.? Given the same number of training classes, is it better to have coarse classes or fine-grained classes? Which is better: more classes or more examples per class?

研究の動機と目的

ImageNet事前学習データのどの側面が転移学習性能に最も影響するかを調査する。
クラスあたりの画像数が転移タスクに与える影響を定量的に評価する。
事前学習クラス数が転移性能に与える影響を定量的に評価する。
転移学習における微細分類ラベルと粗分類ラベルの重要性を評価する。
転移性能の観点から、クラス数を増やすこととクラスあたりの画像数を増やすことのデータ予算上のトレードオフを探る。

提案手法

ImageNetの制御されたサブセットに対してAlexNet風CNNを事前学習し、クラスあたりの画像数とクラス数を変化させる。
事前学習済みネットワークを3つの転移タスクでファインチューニングする: PASCAL VOC 2007 object detection (PASCAL-DET), PASCAL VOC 2012 action recognition (PASCAL-ACT-CLS), and SUN-CLS scene classification.
WordNetベースのクラス分類を体系的に変化させ、事前学習用の粗いラベルセットと細かいラベルセットを作成する。
ファインチューニング後の転移性能を測定する（検出/アクションのmAP、SUNの精度）。
粗分類で学習した特徴が細粒度の識別力を保持しているかを評価するためにinduction accuracyを計算する。

実験結果

リサーチクエスチョン

RQ1事前学習データ量（クラスあたりの画像数）は転移学習性能にどう影響するか？
RQ2事前学習クラス数は転移性能にどう影響するか？
RQ3転移可能な特徴を学習するには微細分類認識が必要か、それとも粗分類の事前学習で足りるか？
RQ4粗分類から学習した特徴は見たことのないデータでの細粒度識別を支援できるか？
RQ5固定データ予算の下で、より多くのクラスを持つ方が良いか、それともクラスあたりの例数を増やす方が良いか？

主な発見

事前学習データをクラスあたり500画像まで削減（1000から）すると、ImageNet自体での低下と比べて転移の低下は小さく、PASCAL-DETでのmAPは1.5程度。
粗分類127クラス程度での事前学習は、すべての1000ImageNetクラスを使う場合に近い転移性能を示し、いくつかのタスクでは向上する。
微細分類（1000クラス）の事前学習は良好な転移には必須ではなく、粗分類の事前学習でも強力な転移特徴を得られる。
粗分類でのトレーニングは、見たことのない細粒度クラスをかなり識別できる特徴を誘発し得る（induction accuracyは完全な学習の約15%程度の範囲）。
クラス数を増やしても転移性能が向上するとは限らず、むしろ少なく粗いクラスを使う方が同等かそれ以上の転移結果を得る場合がある。タスクに関連しないデータを増やしても性能を損なうことがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。