[論文レビュー] Revisiting Unreasonable Effectiveness of Data in Deep Learning Era
本論文はデータを3億枚の画像(JFT-300M)へと拡大し、事前学習データの規模が視覚表現に与える影響を検討する。データ量の増加に対して性能は対数的に向上し、容量の大きいモデルほど恩恵を受け、タスク全体で新たなSOTAを達成する。
The success of deep learning in vision can be attributed to: (a) models with high capacity; (b) increased computational power; and (c) availability of large-scale labeled data. Since 2012, there have been significant advances in representation capabilities of the models and computational capabilities of GPUs. But the size of the biggest dataset has surprisingly remained constant. What will happen if we increase the dataset size by 10x or 100x? This paper takes a step towards clearing the clouds of mystery surrounding the relationship between `enormous data' and visual deep learning. By exploiting the JFT-300M dataset which has more than 375M noisy labels for 300M images, we investigate how the performance of current vision tasks would change if this data was used for representation learning. Our paper delivers some surprising (and some expected) findings. First, we find that the performance on vision tasks increases logarithmically based on volume of training data size. Second, we show that representation learning (or pre-training) still holds a lot of promise. One can improve performance on many vision tasks by just training a better base model. Finally, as expected, we present new state-of-the-art results for different vision tasks including image classification, object detection, semantic segmentation and human pose estimation. Our sincere hope is that this inspires vision community to not undervalue the data and develop collective efforts in building larger datasets.
研究の動機と目的
- 事前学習データサイズの増加が分類、検出、セグメンテーション、姿勢推定などの視覚表現学習に与える影響を評価する。
- データ量と性能の関係、特に高容量モデルを使用した場合を含めて評価する。
- 大規模でノイズの多いウェブ収集データセットを事前学習に用いることで得られる最先端の成果を示す。
- 転移学習性能に対するモデル容量、クラス数、データ品質などの要因を分析する。
提案手法
- JFT-300Mで18291ラベル、約20%のラベルノイズを含む101層ResNet(ResNet-101)を訓練する。
- JFT-300Mで事前学習を行い、ImageNet、COCO、PASCAL VOC、COCO Poseのベンチマークで表現をファインチューニングまたは評価する。
- 多ラベルの性質に対応するため各ラベルごとのロジスティック損失を用い、欠落ラベルを埋めるためにラベル階層を組み込む。
- 表現を固定された特徴抽出と、JFT-300M初期化からのファインチューニングで評価する。
- データサイズ、クラス数、モデル容量を変えたアブレーション実験を行い、ImageNetのベースラインと比較する。
- Downpour SGDとパラメータサーバを用いた50GPUによる非同期分散訓練を採用する。
実験結果
リサーチクエスチョン
- RQ1事前学習データサイズを増やすと、大容量モデルを使用した場合に視覚タスクの性能向上が得られるか。
- RQ2データ量に対して表現品質はどの程度(対数的か線形的か)にスケールし、モデル容量はどう影響を受けるか。
- RQ3クラス数とラベルノイズが転移学習性能に与える影響は何か。
- RQ4より大きなベースモデルは巨大データセットからの恩恵をより大きく受けるか。
- RQ5データ品質(ノイズ)と量の役割は下流タスクの改善にどのように寄与するか。
主な発見
- 視覚タスクでの性能は事前学習データ量の増加とともに向上し、データ量が増えるにつれて利得は対数的に拡大する。
- 大規模データからのより良い表現学習は、検出、セマンティックセグメンテーション、姿勢推定などの下流タスクを大幅に向上させる。
- モデル容量は重要で、より高容量のモデル(例:ResNet-152)は300Mデータからより大きな恩恵を受ける。
- 長尾データでの訓練は収束を妨げず、精度の向上をもたらす。
- JFT-300Mの事前学習を用いた新しいSOTAがCOCO検出、PASCAL VOC、セマンティックセグメンテーション、人間の姿勢推定で達成される。
- JFT-300M初期化からのファインチューニングは、複数のベンチマークでImageNet初期化を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。