QUICK REVIEW

[論文レビュー] The Role of Pre-training Data in Transfer Learning

Rahim Entezari, Mitchell Wortsman|arXiv (Cornell University)|Feb 27, 2023

Domain Adaptation and Few-Shot Learning被引用数 8

ひとこと要約

論文は事前学習データ分布・量・手法が転移学習性能に与える影響を、特に少数ショットと完全微調整のシナリオで体系的に研究し、データの品質とスケールが場合によっては分布の質が劣る場合を補えることを示す。

ABSTRACT

The transfer learning paradigm of model pre-training and subsequent fine-tuning produces high-accuracy models. While most studies recommend scaling the pre-training size to benefit most from transfer learning, a question remains: what data and method should be used for pre-training? We investigate the impact of pre-training data distribution on the few-shot and full fine-tuning performance using 3 pre-training methods (supervised, contrastive language-image and image-image), 7 pre-training datasets, and 9 downstream datasets. Through extensive controlled experiments, we find that the choice of the pre-training data source is essential for the few-shot transfer, but its role decreases as more data is made available for fine-tuning. Additionally, we explore the role of data curation and examine the trade-offs between label noise and the size of the pre-training dataset. We find that using 2000X more pre-training data from LAION can match the performance of supervised ImageNet pre-training. Furthermore, we investigate the effect of pre-training methods, comparing language-image contrastive vs. image-image contrastive, and find that the latter leads to better downstream accuracy

研究の動機と目的

異なる事前学習データ分布が少数ショットおよび全微調整下で下流の転移性能にどのように影響するかを調査する。
データ選別とラベルノイズが転移学習性能に与える影響を評価する。
事前学習手法（教師あり、CLIP、SimCLR）を比較し、転移可能性への影響を分析する。
事前学習データセットのサイズとデータ品質が、異なるタスクの下流性能とどのように相互作用するかを評価する。

提案手法

ResNet-50を画像エンコーダとして用いたCLIPベースの事前学習を七つの事前学習データセットと九つの下流タスクで適用する。
ハイパーパラメータのグリッド探索を伴い、下流データセット上で事前学習済みモデルをエンドツーエンドでファインチューニングする。
教師あり・CLIP・SimCLRの事前学習損失を比較し、少数ショットと全微調整の性能を分析する。
転移効果を分析するため、事前学習データソース・データセットサイズ・キャプション/テキスト品質を系統的に変化させる。
データ選別の影響を、ImageNetとFlickrキャプション対 templatedキャプション、LAION分布と比較して評価する。

実験結果

リサーチクエスチョン

RQ1異なる事前学習データ分布は少数ショット設定で異なる転移性能をもたらすか。
RQ2事前学習データ品質と選別は、ノイズの多いまたはより大きいデータセットと比較して下流の転移にどのような影響を与えるか。
RQ3事前学習データサイズが下流タスク間の転移性能へ及ぼす相対的影響はどの程度か。
RQ4総説的な比較として、教師あり・CLIP・SimCLRの事前学習は転移性にどのように寄与するか。
RQ5非常に大規模でノイズの多いデータセット（例：LAION）は、様々なタスクでImageNetと同等またはそれを上回ることができるか。

主な発見

少数ショット転移では事前学習データソース間の差異が顕著だが、より多くのファインチューニングデータが揃うとほぼ縮小する。
最悪の事前学習データセットでも、ほとんどの下流タスクでゼロから学習するよりも優れている。
よく選定されたキャプション品質の改善（templated captions）は、元のFlickrキャプションより転移精度を大幅に向上させる。
事前学習データのスケーリングは有効で、LAION-2Bは一部のタスクでImageNetを上回るが、 gains are task-dependent and saturate for others.
SimCLRの事前学習は一般にCLIPより少数ショット転移性能が高い傾向があるが、下流データが増えると差は縮小する。
LAIONデータは大規模に拡張された場合にImageNetと同等以上になる場合があるものの、全タスクで普遍的にそうとは限らない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。