Skip to main content
QUICK REVIEW

[論文レビュー] Meta reinforcement learning as task inference

Jan Humplik, Alexandre Galashov|arXiv (Cornell University)|May 15, 2019
Reinforcement Learning in Robotics参考文献 56被引用数 63
ひとこと要約

この論文は meta-reinforcement learning を、POMDP 内の未知タスクを推定することとして位置づけ、信念モジュールがタスクの事後分布を推定し、ポリシーが状態と信念に作用する二-stream エージェントを訓練する。監視付き信念学習は特権タスク情報で学習を速め、望む長時間の連続制御でスパース報酬を含む性能を改善する、ということを示す。

ABSTRACT

Humans achieve efficient learning by relying on prior knowledge about the structure of naturally occurring tasks. There is considerable interest in designing reinforcement learning (RL) algorithms with similar properties. This includes proposals to learn the learning algorithm itself, an idea also known as meta learning. One formal interpretation of this idea is as a partially observable multi-task RL problem in which task information is hidden from the agent. Such unknown task problems can be reduced to Markov decision processes (MDPs) by augmenting an agent's observations with an estimate of the belief about the task based on past experience. However estimating the belief state is intractable in most partially-observed MDPs. We propose a method that separately learns the policy and the task belief by taking advantage of various kinds of privileged information. Our approach can be very effective at solving standard meta-RL environments, as well as a complex continuous control environment with sparse rewards and requiring long-term memory.

研究の動機と目的

  • マルチタスク強化学習設定でタスクを隠れた変数として扱い、学習することを動機づける。
  • タスク信念と制御ポリシーを別々に学習する二-stream エージェントを提案する。
  • 特権的な監督を活用して、タスク後分布を推定する信念ネットワークを訓練する。
  • オフポリシー学習の効率と情報ボトルネック正則化の利点を示す。

提案手法

  • meta-RL を、状態 (x, w) を持つ POMDP として定式化する。ここで w は観測されないタスクであり、タスク後分布 b_t(w) は軌跡データから更新される。
  • 特権的なタスク情報 h_t(例: タスク記述、専門家の行動、タスク埋め込み)を用いて、近似的信念 ˜astcall b_t(h_t| au_{0:t}) を出力する信念ネットワークを導入する。
  • 信念ネットワークを、真のタスク情報を模倣する補助的な教師付き損失で訓練し、事後への対数損失または KL 発散を最小化する。
  • ポリシー(および任意でクリティック)が全 history ではなく (x_t, ˜ast b_t) に条件づけられる二-stream アーキテクチャを用い、勾配は信念ネットワークから分離される。
  • エントロピー正則化付きのオフポリシー SVG(0) を探索し、PPO と比較する。再生データの一般化を改善するために情報ボトルネック (IB) 正則化を組み込む。
  • 信念ネットワークエージェントをベースラインLSTMおよびauxiliary-head バリエーションと比較し、スパース報酬を含む複数の meta-RL 環境で評価する。

実験結果

リサーチクエスチョン

  • RQ1特権情報を用いて訓練タスクを知ることが、meta-RL の適応を速める有用な信念表現を学習するために利用できるか。
  • RQ2タスク推論を制御から分離することは、特にオフポリシー学習においてサンプル効率を改善するか。
  • RQ3情報ボトルネック正則化は、信念ベースの meta-RL における一般化と学習速度にどのように影響するか。
  • RQ4長期記憶とスパース報酬を伴う複雑な連続制御タスクにこのフレームワークは拡張可能か。

主な発見

  • 監視付き信念学習は、タスク記述を用いることで学習を加速し、複数の meta-RL 環境で最終的な性能を向上させる。
  • 信念ストリームを含むオフポリシー SVG(0) は、単純なタスクでのオンポリシー PPO よりサンプル効率がよく、IB 正則化は一般化ギャップを縮小する。
  • 信念ネットワークエージェントは、スパース報酬や長期記憶要求を含む難易度の高い環境でauxiliary-headおよびベースラインLSTMよりも性能を上回る。
  • タスク記述による監督は、トレーニングタスクIDを予測するものや非構造的ターゲットを予測するよりも、一般に後方推定が改善される。
  • Numpad タスクでは、信念ベースのアプローチが Thompson-sampling に似た方法(例: PEARL)よりもエピソード全体にわたる探索を指向することで、より速い適応を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。