QUICK REVIEW

[論文レビュー] Learning to Learn: Meta-Critic Networks for Sample Efficient Learning

Flood Sung, Li Zhang|arXiv (Cornell University)|Jun 29, 2017

Reinforcement Learning in Robotics参考文献 31被引用数 96

ひとこと要約

The paper introduces a meta-critic framework that learns a task- and actor-conditioned critic to guide multiple actors across RL and supervised learning, enabling fast adaptation from few examples and benefiting from semi-supervised data.

ABSTRACT

We propose a novel and flexible approach to meta-learning for learning-to-learn from only a few examples. Our framework is motivated by actor-critic reinforcement learning, but can be applied to both reinforcement and supervised learning. The key idea is to learn a meta-critic: an action-value function neural network that learns to criticise any actor trying to solve any specified task. For supervised learning, this corresponds to the novel idea of a trainable task-parametrised loss generator. This meta-critic approach provides a route to knowledge transfer that can flexibly deal with few-shot and semi-supervised conditions for both reinforcement and supervised learning. Promising results are shown on both reinforcement and supervised learning problems.

研究の動機と目的

RLと監督付き学習の双方で、わずかな例からでも学習を学習させ、良好な性能を発揮させる動機づけ。
タスクとアクターを条件付けすることで、任意のタスクを解く任意のアクターを批評できるグローバルなメタ-クリティックを提案する。
メタ-クリティックを条件づけるためのタスク-アクターエンコーダを導入し、タスク-アクター埋め込みを生成する。
半教師付きの監督信号を通じてラベルなしデータを活用する知識移転を実現する。
複数の実験設定においてサンプル効率の高い学習と堅牢な転移を実証する。

提案手法

メタ-クリティックを定義する：メタ値ネットワーク(MVN)とタスク-アクターエンコーダー(TAEN)から成る。
現在のタスクとアクターを条件づけるために、タスク-アクター埋め込み z_t = C_ω(L_t−k) を用いる。
TAEN は学習トレース L_tk = [(s_t−k, a_t−k, r_t−k), ..., (s_t−1, a_t−1, r_t−1)] を読み取り、z_t を生成する。
複数タスクにわたりアクターを訓練し、メタ-クリティックが Q_φ(s_t, a_t, z_t) と TD様の更新を介して監督を提供する。
離散および連続アクションのRL、および報酬が負の損失となるワンステップのアクター環境ゲームを介して、監督付き学習設定へフレームワークを拡張する。
メタテスト中にグラウンドトゥルースラベルなしで、メタ-クリティックの監督性を利用してラベルなしデータを活用する。

実験結果

リサーチクエスチョン

RQ1タスクとアクターで条件づけられた単一のメタ-クリティックは、RLとSLの複数タスクにわたり多様なアクターを効果的に監督できるか？
RQ2多様なタスク分布を持つマルチタスクメタ学習において、タスク-アクターエンコーダによるタスク条件付けは堅牢な転移を可能にするか？
RQ3メタテスト中に半教師付きデータを活用して、サンプル効率をさらに向上させることができるか？
RQ4SLとRLのベンチマーク全体で、メタ-クリティックの指導は既存のメタ学習アプローチ（例: MAML）とどう比較されるか？
RQ5新しいタスクへの迅速な適応に対する、共有メタ-クリティックの使用の影響はどの程度か（少数の試行やデモで）？

主な発見

メタ-クリティック框架は、RLと監督付き学習の両方の設定で新しいタスクへの迅速な適応を可能にする。
TAEN 埋め込みタスク条件付けは、クリティックが多様なタスク分布を横断して一般化することを可能にし、単一事前知識手法が苦戦する混成タスクで性能を向上させる。
監督付き学習では、メタ-クリティックは少数のラベル付き例から学習を監督し、メタテスト時にはラベルなしデータも活用できる。
RL実験（依存型マルチアームドバンディットとカートポール）全体で、Meta-Criticは標準、All+FT、およびMAMLのベースラインよりサンプル効率の高い学習と最終性能で上回る。
学習された TAEN 埋め込みは、タスクパラメータに明示的に曝露されなくても、タスク構造（例: cartpole のポール長）を反映しており、意味のあるタスクマニフォールドを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。