Skip to main content
QUICK REVIEW

[論文レビュー] LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop

Fisher Yu, Ari Seff|arXiv (Cornell University)|Jun 10, 2015
Domain Adaptation and Few-Shot Learning参考文献 24被引用数 1,368
ひとこと要約

本論文では、反復的に選択・ラベル付与・アノテーションの伝搬を繰り返す人間を含む深層学習パイプラインを用いて構築された、カテゴリーごとに約100万枚のラベル付き画像を持つ大規模な画像データセットLSUNを提案する。この手法は90%を超えるラベル精度を達成し、視覚認識性能を顕著に向上させる。LSUNで微調整されたモデルは、ImageNet事前学習と比較してベンチマークテストで最大22.37%の誤差低減を示した。

ABSTRACT

While there has been remarkable progress in the performance of visual recognition algorithms, the state-of-the-art models tend to be exceptionally data-hungry. Large labeled training datasets, expensive and tedious to produce, are required to optimize millions of parameters in deep network models. Lagging behind the growth in model capacity, the available datasets are quickly becoming outdated in terms of size and density. To circumvent this bottleneck, we propose to amplify human effort through a partially automated labeling scheme, leveraging deep learning with humans in the loop. Starting from a large set of candidate images for each category, we iteratively sample a subset, ask people to label them, classify the others with a trained model, split the set into positives, negatives, and unlabeled based on the classification confidence, and then iterate with the unlabeled set. To assess the effectiveness of this cascading procedure and enable further progress in visual recognition research, we construct a new image dataset, LSUN. It contains around one million labeled images for each of 10 scene categories and 20 object categories. We experiment with training popular convolutional networks and find that they achieve substantial performance gains when trained on this dataset.

研究の動機と目的

  • ImageNet や Places といった既存のベンチマークよりも、より密度が高く大規模な学習データセットを提供することで、深層学習モデルの増大するデータ需要に対処すること。
  • 段階的なアクティブラーニングフレームワークに人間のフィードバックを組み合わせたラベル伝搬の自動化により、手作業によるアノテーションのボトルネックを軽減すること。
  • 高カテゴリー密度の、ややノイズの多い大規模データセットで学習させることで、モデルの一般化性能と性能が向上するかどうかを評価すること。
  • 将来の大規模視覚認識分野の進展を支援する、自由に利用可能でスケーラブルな画像データセットを構築・公開すること。

提案手法

  • キーワードベースのウェブクローリングを用いて、カテゴリーごとに10^7~10^8枚の候補画像を初期プールとして収集する。
  • 人間によるラベル付けのために、画像の小さなサブセットを反復的に選択し、そのラベル付きサブセットで分類器を訓練する。
  • 訓練済み分類器を用いて、残りの画像のラベルと信頼度を予測し、信頼度のしきい値に基づいてフィルタリングを行う。
  • データセットをポジティブ、ネガティブ、ラベルなしのセットに分割し、ラベルなしのセットに対してプロセスを再帰的に適用することで、カバレッジと品質を向上させる。
  • 統計的検定を用いてラベル品質を検証し、最終的なデータセットで90%以上の精度を維持する。
  • 最終的なデータセットを用いて、標準ベンチマークでの評価を目的に、深層畳み込みネットワークの事前学習および微調整を行う。

実験結果

リサーチクエスチョン

  • RQ1人間を含む深層学習パイプラインは、大規模で高密度の画像データセットの作成を効果的にスケーリングできるか?
  • RQ2ImageNet や他のより多様なデータセットと比較して、LSUN のようなより大規模でカテゴリー密度の高いデータセットで学習させることで、性能が向上するか?
  • RQ3大規模データセットに含まれるラベルノイズが、より小規模でクリアなデータセットと比較して、モデルの一般化性能に与える影響はどの程度か?
  • RQ4特徴量の質とモデル性能の観点から、LSUN からの表現学習は ImageNet での事前学習と比べてどのように異なるか?

主な発見

  • PLACES と LSUN の両方で微調整された AlexNet は、PLACES のみで微調整した場合と比較して、PLACES テストセットでの分類誤差を 22.37% 減少させた。
  • PASCAL VOC 2012 では、LSUN で事前学習したモデルが ImageNet で事前学習したモデルを上回り、AlexNet では mAP が 9% 向上、VGG では 6% 向上した。
  • LSUN データから学習された1層目のフィルタは、ImageNet から学習されたものと比較して視覚的にクリアでノイズが少なく、より良い特徴学習が行われていることを示している。
  • 一部のラベルノイズを含んでも、LSUN データセットはより小規模でクリアなデータセットよりも優れた性能を示すモデルを生成した。これは、データ密度がわずかなノイズよりもモデル性能に大きな影響を与えることを示唆している。
  • 人間を含むパイプラインは90%を超えるラベル精度を達成した。これは、自動化が品質を損なわせることなく、人間によるラベル付けの効率を顕著に高められることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。