QUICK REVIEW

[論文レビュー] Learning to Optimize Neural Nets

Ke Li, Jitendra Malik|arXiv (Cornell University)|Mar 1, 2017

Machine Learning and Algorithms参考文献 29被引用数 84

ひとこと要約

本論文は、 guided policy search を用いて高次元で確率的な最適化アルゴリズムを学習する枠組みを拡張し、手作りのアルゴリズムを上回り、データセットとアーキテクチャを横断して一般化する学習済み最適化器を実証する。

ABSTRACT

Learning to Optimize is a recently proposed framework for learning optimization algorithms using reinforcement learning. In this paper, we explore learning an optimization algorithm for training shallow neural nets. Such high-dimensional stochastic optimization problems present interesting challenges for existing reinforcement learning algorithms. We develop an extension that is suited to learning optimization algorithms in this setting and demonstrate that the learned optimization algorithm consistently outperforms other known optimization algorithms even on unseen tasks and is robust to changes in stochasticity of gradients and the neural net architecture. More specifically, we show that an optimization algorithm trained with the proposed method on the problem of training a neural net on MNIST generalizes to the problems of training neural nets on the Toronto Faces Dataset, CIFAR-10 and CIFAR-100.

研究の動機と目的

ニューラルネットの訓練を目的としたデータ駆動ツールとして、手作りの規則よりも学習最適化アルゴリズムを動機づける。
high-dimensional stochastic problems に適した Learning to Optimize の拡張を開発する。
勾配の確率性に対して頑健でありつつ、見たことのないアーキテクチャやデータセットへ学習済み最適化器が一般化できることを示す。

提案手法

更新ルールをポリシーとする強化学習問題として最適化を定式化する。
guided policy search (GPS) を用いて、時変の線形ポリシーと RNN で表現される非線形の定常ポリシーを学習する。ダイナミクスの局所線形化とコストの二次近似を取り入れて、LQG レギュレータを用いてサブ問題を解く。
ニューラルネットの構造を活用し、高次元でのスケーラブルな学習を可能にするため、置換不変性（座標グループ）を課す。
反復、勾配、目的の履歴に焦点を当てた状態特徴を定義し、訓練および評価のための観測特徴を定義する。
畳み込み GPS（ブロック対角、座標ごとの分解）を適用して、ニューラルネット最適化への学習を規模拡大する。

実験結果

リサーチクエスチョン

RQ1学習済み最適化アルゴリズムが shallow なニューラルネットで訓練された後、より深いアーキテクチャや異なるデータセットに一般化できるか？
RQ2学習済みオプティマイザは勾配の確率性とネットワークアーキテクチャの変化に対して頑健か？
RQ3学習済みオプティマイザは unseen タスクで一般的な手作りオプティマイザ（例：SGD、モーメンタム、Adagrad、RMSProp、Adam）を上回るか？
RQ4高次元最適化の学習効率を改善する構造的事前情報（座標ごとのグループ）はどの程度役立つか？
RQ5学習済みオプティマイザは非常に異なる統計を持つデータセット間でどれほど転移するか（MNIST vs. CIFAR/TFD）？

主な発見

学習済みオプティマイザは、MNIST由来、TFD、CIFAR-10、CIFAR-100 のタスクで、人手で設計された手法よりも安定して最適解へ速く降下する。
予測されたステップ降下は、入力層と隠れ層が大きいニューラルネット（パラメータが約8倍増加）にも一般化可能であり、初期の振動にもかかわらず競合的または優位であり続ける。
学習済みオプティマイザは、バッチサイズを減らして勾配確率性を高めても堅牢であり、いくつかのデータセットで他の選択肢よりも依然として上回る。
MNIST でメタ学習されたオプティマイザは、異なるデータセットでも性能を発揮し、学習最適化戦略の転移性を示唆する。
L2L ベースの学習済みオプティマイザと比較して、提案手法は未知のタスクとアーキテクチャで一貫性と安定性がより優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。