Skip to main content
QUICK REVIEW

[論文レビュー] On The Power of Curriculum Learning in Training Deep Networks

Guy Hacohen, Daphna Weinshall|arXiv (Cornell University)|Apr 7, 2019
Advanced Neural Network Applications被引用数 132
ひとこと要約

この論文はCNNのカリキュラム学習(非均一ミニバッチサンプリング)を分析し、スコアリングとペーシング戦略(転移スコアまたはブートストラップスコアを介して)学習を加速し最終精度を向上させることを示すとともに、カリキュラムが最適化ランドスケープを再形成する理論的見解を提供するが、グローバルミニマムを変えない。

ABSTRACT

Training neural networks is traditionally done by providing a sequence of random mini-batches sampled uniformly from the entire training data. In this work, we analyze the effect of curriculum learning, which involves the non-uniform sampling of mini-batches, on the training of deep networks, and specifically CNNs trained for image recognition. To employ curriculum learning, the training algorithm must resolve 2 problems: (i) sort the training examples by difficulty; (ii) compute a series of mini-batches that exhibit an increasing level of difficulty. We address challenge (i) using two methods: transfer learning from some competitive ``teacher" network, and bootstrapping. In our empirical evaluation, both methods show similar benefits in terms of increased learning speed and improved final performance on test data. We address challenge (ii) by investigating different pacing functions to guide the sampling. The empirical investigation includes a variety of network architectures, using images from CIFAR-10, CIFAR-100 and subsets of ImageNet. We conclude with a novel theoretical analysis of curriculum learning, where we show how it effectively modifies the optimization landscape. We then define the concept of an ideal curriculum, and show that under mild conditions it does not change the corresponding global minimum of the optimization function.

研究の動機と目的

  • CNNの訓練速度と一般化に及ぼす、非均一なミニバッチサンプリングを介したカリキュラム学習(CL)の影響を調査する。
  • 例の難易度を評価するスコアリング関数を開発・比較する(転移ベースとブートストラッピング/自己学習ベース)。
  • 訓練中の難易度上昇の露出を制御するさまざまなペーシング関数を探索する。
  • CLが最適化ランドスケープをどのように再構成するかの理論的分析を提供し、既存の手法と関連付ける。

提案手法

  • CLをスコアリング(難易度)とペーシング(提示率)関数に分解し、ミニバッチ選択におけるそれらの役割を形式化する。
  • 2つのスコアリング手法を実装する:事前学習済みネットワークを用いた転移ベースのスコアリングと、初期の訓練損失に基づくブートストラッピング/自己学習ベースのスコアリング。
  • 複数のデータセットとアーキテクチャの下で、固定指数関数、変化する指数関数、単一ステップという3つのペーシング方式を評価する。
  • Weinshall et al. 2018を再現・拡張し、ハイパーパラメータの調整とクロスバリデーションを行って信頼性の高い比較を保証する。
  • 緩やかな条件のもとでグローバルミニマムを保存しつつ、カリキュラムが目的関数のランドスケープをどのように変化させるかを示す理論的枠組みを提供する。

実験結果

リサーチクエスチョン

  • RQ1カリキュラム学習は収束を加速し、データセットとアーキテクチャを跨いで最終精度を改善するか?
  • RQ2転移ベースとブートストラッピングスコアリング関数はCLの有効性でどのように比較されるか?
  • RQ3異なるペーシング関数が学習ダイナミクスとハイパーパラメータ調整に与える影響は?
  • RQ4カリキュラム学習は最適化ランドスケープをどのように修正し、どの条件下でグローバル最適解を保存するか?
  • RQ5一般的なアーキテクチャを用いて、より大規模なベンチマーク(CIFAR-10/100、ImageNetのサブセット)でCLの利点を観測できるか?

主な発見

  • カリキュラム学習は学習を加速し、複数のデータセットとアーキテクチャに渡ってバニラ訓練より高い最終テスト精度をもたらす。
  • 転移ベースのスコアリング関数はランダム又はバニラのスコアリングより優れており、有益な難易度推定から利益が生じることを示す。
  • ブートストラッピング(自己学習)スコアリングは訓練全体でテスト精度を向上させる一方、自己ペース学習は学習を遅らせる可能性がある。
  • 異なるペーシング関数は同等の性能を示し、初期訓練段階に力が集中する。変化する指数ペーシングは学習率の再調整の必要性を減らす。
  • 理論分析は、CLが事前知識を導入することにより最適化ランドスケープを効果的に変え、グローバルミニマムを緩やかな条件のもとで変えずに最適解の重要性を高めることを示す。
  • 経験的勾配は、転移ベースのCLがパラメータをバニラ訓練とはやや異なる局所解へ導くことを示す一方、理想的条件下で一貫したグローバル最適解を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。