QUICK REVIEW

[論文レビュー] Online Meta-Learning

Chelsea Finn, Aravind Rajeswaran|arXiv (Cornell University)|Feb 22, 2019

Domain Adaptation and Few-Shot Learning被引用数 101

ひとこと要約

本論文はオンラインメタ学習フレームワークと Follow The Meta Leader (FTML) アルゴリズムを導入し、MAML を連続タスクへ拡張して O(log T) の後悔保証を提供し、視覚タスクでの実証的な大きな性能向上を示す。

ABSTRACT

A central capability of intelligent systems is the ability to continuously build upon previous experiences to speed up and enhance learning of new tasks. Two distinct research paradigms have studied this question. Meta-learning views this problem as learning a prior over model parameters that is amenable for fast adaptation on a new task, but typically assumes the set of tasks are available together as a batch. In contrast, online (regret based) learning considers a sequential setting in which problems are revealed one after the other, but conventionally train only a single model without any task-specific adaptation. This work introduces an online meta-learning setting, which merges ideas from both the aforementioned paradigms to better capture the spirit and practice of continual lifelong learning. We propose the follow the meta leader algorithm which extends the MAML algorithm to this setting. Theoretically, this work provides an $\mathcal{O}(\log T)$ regret guarantee with only one additional higher order smoothness assumption in comparison to the standard online setting. Our experimental evaluation on three different large-scale tasks suggest that the proposed algorithm significantly outperforms alternatives based on traditional online learning approaches.

研究の動機と目的

メタ学習とオンライン学習の概念を統合することによる継続的・生涯学習の動機付け。
タスクが逐次到着し、過去の経験が適応を informing するオンラインメタ学習問題を定式化する。
オンラインメタ学習法として Follow The Meta Leader (FTML) アルゴリズムを提案する。
大規模タスクのための理論的後悔保証と実用的なディープラーニング実装を提供する。

提案手法

各タスク t を評価する前に更新 U_t(w) を適用するオンラインメタ学習を定義する。
FTML を提案する： w_{t+1} = argmin_w sum_{k=1}^t f_k(U_k(w))。
1 ステップの勾配更新 U_t(w) = w - α ∇f̂_t(w) を用いて MAML に似た目的関数を得る。
標準的な滑らかさと凸性の仮定の下で、合成関数は凸で滑らかとなり、O(log T) の後悔につながることを示す。
MAML に触発された深層ネットワークのための実用的な確率的最適化の実例を提供（内側および外側ループ、Grad/Adam 更新）。
FTML は内側更新を加えた損失が適切に凸である場合、Follow The Leader に匹敵する後悔保証を継承することを示す。

実験結果

リサーチクエスチョン

RQ1オンラインメタ学習を、過去のタスクを活用して逐次到着する新しいタスクへ迅速に適応するように定式化できるか。
RQ2FTML は hindsight で最良のメタ学習者に対してサブ線形の後悔を達成するか。
RQ3大規模な視覚タスクに対して、深層ニューラルネットワークで実装するのを効果的に実現できるか。
RQ4オンラインメタ学習は実務タスクにおいて、従来のオンライン学習や結合訓練のベースラインとどのように比較されるか。

主な発見

FTML は前述の仮定の下で hindsight の最良メタ学習者に対して O(log T) の後悔境界を達成する。
適切なステップサイズを用いた MAML 類似の目的関数 f_i(w - α ∇f̂_i(w)) は凸であり、効率的な最適化が可能である。
FTML は TOE（Train On Everything）および結合訓練のベースラインに対して実証的な利得を提供し、特にデータ効率が高い領域で有利。
Rainbow MNIST では、FTML は新しいタスクを追加するたびに新しいタスクをより効率的に学習し、代替手法を上回る。
CIFAR-100 では、FTML はすべてのレイヤーを適応させることの恩恵を受け、最後のレイヤーだけを適応させる場合よりも学習が速くなる。
逐次的なオブジェクト姿勢予測設定において、FTML はベースラインよりも学習が速く、転移が優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。