QUICK REVIEW

[論文レビュー] On Learning Intrinsic Rewards for Policy Gradient Methods

Zeyu Zheng, Junhyuk Oh|arXiv (Cornell University)|Apr 17, 2018

Reinforcement Learning in Robotics参考文献 21被引用数 33

ひとこと要約

本稿では、報酬が疎である環境における学習効率を向上させるために、パラメトリックな内部報酬を学習するための新しい確率的勾配法LIRPGを提案する。この手法は、外部報酬の性能を最大化するように内部報酬を学習することで、5つのMuJoCoドメインの4つおよびテストされた15のAtariゲームにおいて、外部報酬のみの手法やライブボーナスベースラインを著しく上回る成果を示した。

ABSTRACT

In many sequential decision making tasks, it is challenging to design reward functions that help an RL agent efficiently learn behavior that is considered good by the agent designer. A number of different formulations of the reward-design problem, or close variants thereof, have been proposed in the literature. In this paper we build on the Optimal Rewards Framework of Singh et.al. that defines the optimal intrinsic reward function as one that when used by an RL agent achieves behavior that optimizes the task-specifying or extrinsic reward function. Previous work in this framework has shown how good intrinsic reward functions can be learned for lookahead search based planning agents. Whether it is possible to learn intrinsic reward functions for learning agents remains an open problem. In this paper we derive a novel algorithm for learning intrinsic rewards for policy-gradient based learning agents. We compare the performance of an augmented agent that uses our algorithm to provide additive intrinsic rewards to an A2C-based policy learner (for Atari games) and a PPO-based policy learner (for Mujoco domains) with a baseline agent that uses the same policy learners but with only extrinsic rewards. Our results show improved performance on most but not all of the domains.

研究の動機と目的

報酬が疎または曖昧な状況下で、報酬関数を設計することが難しい、報酬が疎または曖昧な順序決定タスクにおける課題に対処する。
手作業で設計されたボーナスや固定関数形に依存する従来の報酬設計法や内部動機付け手法の限界を克服する。
アドホックな計画や外部の監視を必要とせず、スケーラブルでエンドツーエンドの方法として、ポリシー勾配学習を向上させる内部報酬関数を学習する。
計算的および表現的制約下でも、外部報酬の期待値を最大化するように最適化された内部報酬を学習することで、ポリシー勾配エージェントがより良い性能を発揮できるようにする。

提案手法

内部報酬学習問題を二段階最適化として定式化する：ポリシーは外部報酬と内部報酬の合計を最大化するように訓練され、内部報酬のパラメータは外部性能を向上させるように更新される。
確率的勾配降下法を用いて、ポリシーの勾配の微分可能近似を通じて、ポリシーのパラメータと内部報酬のパラメータを同時に最適化する。
内部報酬モジュールを、メタ学習の目的関数に基づいて訓練する：内部報酬は、ポリシーが達成する期待される外部報酬を最大化するように更新される。
A2CおよびPPOエージェントにこの手法を適用し、ベースラインと拡張済みエージェントの間でアーキテクチャとハイパーパrameterを共有することで、公平な比較を実現する。
MuJoCo環境では、報酬の遅延を導入して、報酬が疎である状況をシミュレートし、学習タスクの難易度を高める。
アブレーションスタディとして、外部報酬信号が存在しない状況で、学習済み内部報酬のみを用いてポリシーを訓練し、内部報酬が複雑な行動を駆動するのに十分な構造を捉えているかを評価する。

実験結果

リサーチクエスチョン

RQ1学習済み内部報酬関数は、報酬が疎な環境下で、ポリシー勾配エージェントのサンプル効率および最終的な性能を顕著に向上させることができるか？
RQ2勾配ベースの最適化によって内部報酬を学習することは、AtariおよびMuJoCoドメインの両方で、固定された内部ボーナス（例：ライブボーナス）を上回る性能を発揮するか？
RQ3外部報酬信号が存在しない状況でも、学習済み内部報酬のみを用いてポリシーを効果的に訓練でき、競争力のある性能を達成できるか？
RQ4本手法は、報酬の疎らかさや複雑さの異なる多様な環境に対して、どれほど頑健か？
RQ5内部報酬関数は、単なる探索ボーナスを越えて、外部報酬の背後にある構造をどれだけ捉えているか？その結果、単純な探索ボーナスを超えた一般化が可能か？

主な発見

LIRPGは、A2Cを用いて15のAtariゲームで学習性能を向上させ、テストされたすべての環境で一貫した向上を示した。
MuJoCoドメインでは、外部報酬に20ステップの遅延を導入した場合、5つの環境のうち4つ（Hopper、HalfCheetah、Walker2d、Ant）で外部報酬のみのPPOベースラインを上回った。
4つのMuJoCoドメインでライブボーナスベースラインを上回ったが、HalfCheetahでは同等の性能を示した。
アブレーションスタディでは、内部報酬のみでポリシーを訓練した場合、5つのMuJoCo環境のうち3つで、内部報酬と外部報酬の混合を使用した場合と同等の性能を達成した。
Hopperでは、内部報酬のみで訓練した場合、混合報酬を使用した場合より成績が悪かったが、それでもライブボーナスのみで訓練した場合を上回った。これは、内部報酬が単なる生存ボーナスを越えて、より複雑な構造を捉えていることを示唆している。
結果から、学習済み内部報酬は、単なる探索ボーナスを越えて、タスクに特化した複雑な構造をエンコードしており、外部フィードバックが存在しない状況でも有効な学習を可能にしていると考えられる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。