QUICK REVIEW

[論文レビュー] Learning to learn by gradient descent by gradient descent

Marcin Andrychowicz, Misha Denil|arXiv (Cornell University)|Jun 14, 2016

Human Pose and Action Recognition参考文献 33被引用数 344

ひとこと要約

本論文はニューラルオプティマイザ（LSTMベースのアップデータ）を訓練し、さまざまな目的関数を最適化するための更新ルールを学習させ、手設計の最適化アルゴリズムより優れており、タスクとアーキテクチャを横断して一般化することを示しています。

ABSTRACT

The move from hand-designed features to learned features in machine learning has been wildly successful. In spite of this, optimization algorithms are still designed by hand. In this paper we show how the design of an optimization algorithm can be cast as a learning problem, allowing the algorithm to learn to exploit structure in the problems of interest in an automatic way. Our learned algorithms, implemented by LSTMs, outperform generic, hand-designed competitors on the tasks for which they are trained, and also generalize well to new tasks with similar structure. We demonstrate this on a number of tasks, including simple convex problems, training neural networks, and styling images with neural art.

研究の動機と目的

問題構造を活用できる学習可能なオプティマイザに、手設計された最適化ルールを置換する。
オプティマイザ設計を、タスクの分布に渡って訓練されるメタ学習問題として捉える。
新しいアーキテクチャや活性化関数、関連する問題への転移を、初期学習なしで達成する。
大規模なパラメータ数に適した座標ごとに動作するLSTMオプティマイザを用いてスケーラビリティを示す。

提案手法

updater g を、最適化対象パラメータ上で座標ごとに作用する再帰型ニューラルネットワーク（LSTM）としてパラメータ化する。
パラメータの順序に対して不変でコンパクトなモデルを保つため、座標間でオプティマイザのパラメータを共有する。
最適化軌跡全体の重み付き損失を和として目的関数を最小化し、時系列を遡って φ へ誤差逆伝搬することによりオプティマイザを訓練する。
部分軌道での訓練を可能にするため、切り捨てたBPTTとリラックスした軌道目的で最適化グラフを通じた勾配フローを用いる。
オプティマイザの入力/出力を安定化させるための前処理と後処理を適用し、特定の勾配前処理方式を含む。
学習済みオプティマイザを、標準的なベースライン（SGD、RMSprop、Adam、NAG）と比較し、二次関数、MNIST、CIFAR-10、Neural Art などの複数タスクで検討する。

実験結果

リサーチクエスチョン

RQ1一連の問題群から学習されたニューラルオプティマイザは、それらの問題に対して従来の手設計最適化アルゴリズムを上回ることができるのか。
RQ2同じ問題クラス内で、異なるモデルアーキテクチャや活性化関数に対して学習済みオプティマイザがどの程度一般化できるのか。
RQ3座標ごとに動作するLSTMアップデータは大規模ニューラルネットワークに対してスケーラブルで、関連するタスク間で転移可能なのか。
RQ4学習済みオプティマイザは、トレーニング分布を超えたタスク（例：Neural Art における異なるデータ、スタイル、解像度など）へどの程度転移できるのか。

主な発見

学習済みLSTMオプティマイザは、二次関数を含む一連のタスクやニューラルネットワークの訓練などで、標準的なベースラインを大幅に上回る。
あるアーキテクチャ/一般設定で訓練されたLSTMオプティマイザは、MNISTおよびCIFAR-10のタスクで他のアーキテクチャや活性化関数に一般化できる。
CIFAR-10 では、学習済みオプティマイザは保持外のデータ分布においても手作業で設計された最適化アルゴリズムを上回り、ラベルが一部削除されたりデータセットが変更された場合でも優れている。
Neural Art のスタイル転送では、LSTMオプティマイザが従来のオプティマイザを上回り、トレーニング条件を超えた新しいスタイルや高解像度へ一般化する。
重みを共有しつつ隠れ状態を分離した座標ごとLSTMは、パラメータ数の多い場合でも転移能力を保ちつつスケーリングを容易にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。