[論文レビュー] Improving Generalization in Meta Reinforcement Learning using Learned Objectives
MetaGenRLは学習規則を指導するニューラル目的関数をメタ学習し、全く新しい環境への一般化を可能にするとともに、二階勾配を介したサンプル効率を向上させる。
Biological evolution has distilled the experiences of many learners into the general learning algorithms of humans. Our novel meta reinforcement learning algorithm MetaGenRL is inspired by this process. MetaGenRL distills the experiences of many complex agents to meta-learn a low-complexity neural objective function that decides how future individuals will learn. Unlike recent meta-RL algorithms, MetaGenRL can generalize to new environments that are entirely different from those used for meta-training. In some cases, it even outperforms human-engineered RL algorithms. MetaGenRL uses off-policy second-order gradients during meta-training that greatly increase its sample efficiency.
研究の動機と目的
- 進化過程に触発され、多様な環境へ移植可能な一般的な学習規則の構築を動機づける。
- 将来のエージェントがどのように学習するかを決定する低複雑度のニューラル目的関数 L_alpha を学習する。
- 訓練領域を超えて一般化する共有目的関数をメタ学習するためにエージェントの集団を活用する。
提案手法
- L_alphaをニューラルネットワーク(LSTMとして実装)として定義し、軌跡データから段階的な目的値を出力する。
- critic Q_theta および policy phi を微分することで、オフポリシーの二階勾配を用いて L_alpha を更新する。
- L_alphaの勾配を介してポリシー更新を導くパラメータ化された目的関数を用いて、DDPG の actor-critic フレームワークを拡張する。
- 複数の環境に跨るエージェントの集団を訓練して、エージェント間で共有される一般的な目的関数をメタ学習する。
- メタテスト時には学習済みの L_alpha を固定し、新しい環境でランダムに初期化されたエージェントを訓練して一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1メタ学習されたニューラル目的関数は、メタ学習時に見た環境とは全く異なる環境へ一般化できるか?
- RQ2二階勾配とオフポリシー更新を用いることで、従来のメタRL法と比べてサンプル効率と一般化が向上するか?
- RQ3学習規則(L_alpha)とポリシーを分離することは、一般化を向上させ、訓練環境への過剰適合を抑制するか?
主な発見
- MetaGenRLは、これまでに見た環境と未知の環境の双方で REINFORCE および PPO を上回る。
- RL2 と比較して、MetaGenRL はよりサンプル効率が高く、固定された環境相互作用予算下でしばしば同等またはそれ以上の性能を発揮する。
- MetaGenRL は、複数の連続制御タスクとシードにわたる実験で一貫して EPG を上回る。
- 学習した目的関数は、他のメタRLのベースラインが失敗または過適合する未 seen 介のタスク(例: Hopper)へ一般化できる。
- アブレーション研究は、価値関数の入力を含めることと、適切なタイミングでの勾配ステップが学習された目的関数に利益をもたらすことを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。