QUICK REVIEW

[論文レビュー] Curriculum Learning by Transfer Learning: Theory and Experiments with Deep Networks

Daphna Weinshall, Gad Cohen|arXiv (Cornell University)|Feb 11, 2018

Domain Adaptation and Few-Shot Learning参考文献 17被引用数 78

ひとこと要約

この論文は、凸線形回帰に対する SGD の収束をカリキュラム学習が速めることを理論的に分析し、深層ネットワークを用いて転移ベースのカリキュラムスケジューリングが初期トレーニング速度を改善し、難しいタスクや強い正則化の下で一般化を改善し得ることを示している。

ABSTRACT

We provide theoretical investigation of curriculum learning in the context of stochastic gradient descent when optimizing the convex linear regression loss. We prove that the rate of convergence of an ideal curriculum learning method is monotonically increasing with the difficulty of the examples. Moreover, among all equally difficult points, convergence is faster when using points which incur higher loss with respect to the current hypothesis. We then analyze curriculum learning in the context of training a CNN. We describe a method which infers the curriculum by way of transfer learning from another network, pre-trained on a different task. While this approach can only approximate the ideal curriculum, we observe empirically similar behavior to the one predicted by the theory, namely, a significant boost in convergence speed at the beginning of training. When the task is made more difficult, improvement in generalization performance is also observed. Finally, curriculum learning exhibits robustness against unfavorable conditions such as excessive regularization.

研究の動機と目的

人間の学習とこれまでの研究に触発された構造化トレーニングパラダイムとしてのカリキュラム学習を動機づける。
凸線形回帰に対する確率的カリキュラム学習を理論的に分析し、収束の利点を確立する。
事前学習済み分類器の信頼度を用いて訓練例をランク付けする転移ベースのカリキュラム手法を提案する。
深層ネットワークでこのアプローチを実証的に検証し、初期収束を早め、難しい設定下での一般化の向上の可能性を示す。

提案手法

訓練点の理想的難易度スコアを最適な分類器に対する損失として定義する。
Stochastic Curriculum Learning (SCL) を定式化し、初期は容易な例をバイアスサンプリングし、徐々にそのバイアスを緩和する。
線形回帰損失上の SGD を分析し、収束速度が容易なサンプルほど単調に速くなり、特定のステップサイズ条件下では現在の損失が大きいほど速くなる。
大規模な事前学習ネットワーク由来のマージンを用いて難易度を推定する知識転移を利用したカリキュラム手法を提案する。
二つのスケジューリング変種を検討する：固定（難しい例の包含を徐々に増やす）と適応（現在の損失に応じてステップ長を変える）。
CNNs で二つのアーキテクチャ（Large と Small）とデータセット CIFAR-100 および STL-10 を用いて、カリキュラム、ランダムランキング、アンチカリキュラム、基準となるノー-カリキュラム訓練を比較評価する。

実験結果

リサーチクエスチョン

RQ1カリキュラム学習は凸線形回帰に対する SGD の収束を理論的に加速するか。
RQ2転移ベースの訓練例のランキングは理想的なカリキュラムを模倣して深層ネットワークの訓練を加速できるか。
RQ3カリキュラムスケジューリングは、難しいタスク、小さなモデル、または強い正則化の下で一般化にどのように影響するか。
RQ4難易度を人間が提供する難易度ではなく、事前学習モデルから導出した難易度でランク付けすることは有益か。
RQ5固定と適応のスケジューリング戦略は実験的結果に違いをもたらすか。

主な発見

理論上、期待収束率はサンプルの難易度スコアとともに単調に減少する。つまり、容易なサンプルほど収束が速く進む。
十分に小さな学習率を用いた場合、カリキュラムサンプリングを使用すると訓練の開始時に収束速度が高まる。
深層ネットワークにおいては、初期段階で容易な例の勾配が真の勾配とより良く一致し、この整合性は数エポック後に改善する。
転移ベースのカリキュラムは事前学習モデルのマージンを難易度推定として用いることで、初期学習を速め、難しいタスク、小さなネットワーク、または強い正則化の下で一般化を改善し得る。
カリキュラム学習は過度の正則化など不利な条件に対しても頑健性を示し、特定の設定でアンチカリキュラムやランダムランキングの対照を上回ることがある。
本手法は CIFAR-100 および STL-10 において、対照条件と比較して初期トレーニングの速度向上と潜在的な一般化利得を一貫して示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。