QUICK REVIEW

[論文レビュー] Hindsight policy gradients

Paulo Rauber, Ummadisingu, Avinash|arXiv (Cornell University)|Nov 16, 2017

Reinforcement Learning in Robotics参考文献 54被引用数 25

ひとこと要約

本論文では、達成された目標の情報を、意図した目標に到達しなかった場合でも学習に活用できるようにすることで、強化学習におけるサンプル効率を向上させる、後向き政策勾配（HPG）を提案する。重要度サンプリングを用いて、代替の目標に基づいて軌道を再重み付けすることで、HPGはスパarsely-rewarded環境における学習速度を著しく向上させ、標準的な政策勾配を上回り、FetchPushのような挑戦的なタスクでは、後向き経験リプレイを備えたDQN（DQN+HER）と同等またはそれを上回る性能を示す。

ABSTRACT

A reinforcement learning agent that needs to pursue different goals across episodes requires a goal-conditional policy. In addition to their potential to generalize desirable behavior to unseen goals, such policies may also enable higher-level planning based on subgoals. In sparse-reward environments, the capacity to exploit information about the degree to which an arbitrary goal has been achieved while another goal was intended appears crucial to enable sample efficient learning. However, reinforcement learning agents have only recently been endowed with such capacity for hindsight. In this paper, we demonstrate how hindsight can be introduced to policy gradient methods, generalizing this idea to a broad class of successful algorithms. Our experiments on a diverse selection of sparse-reward environments show that hindsight leads to a remarkable increase in sample efficiency.

研究の動機と目的

スパarsely-rewarded環境下で、エージェントが非常に稀に正の報酬を得るという状況におけるサンプル非効率性の課題を解決すること。
従来、この能力を備えていなかった政策勾配手法に、達成された目標で学習する「後向き」の概念を拡張すること。
再利用可能な経験を複数の目標に対して効率的に活用できる理論的裏付けに基づいた、重要度サンプリングを用いた手法を構築すること。
後向き学習が、成功した政策勾配アルゴリズムの広範なクラスに統合可能であることを示し、多様で挑戦的な環境における性能向上を実証すること。

提案手法

重要度サンプリングを用いて、代替の目標に基づいて軌道を再重み付けすることで、非意図的な目標でも学習可能な、後向き政策勾配推定器を提案する。
既知の政策勾配強化学習の結果を一般化する複数の政策勾配の定式化を導出するが、同時に後向き学習を統合する。
再評価時に元の意図とは異なる目標を用いることで生じる分布シフトを是正するため、重要度サンプリングを用いる。
リプレイバッファに依存せず、ポリシー更新の直中に直接適用することで、後向き経験リプレイのアプローチとは対照的である。
θでパrameter化されたゴール条件付きポリシーを採用し、行動を状態とゴールの両方に条件づける。その後、後向きで再定義されたゴールを用いた軌道上で勾配を計算し、θを更新する。
高次元環境（例：Ms. Pac-Man、FetchPush）では、アクティブなゴールをサブサンプリングすることで計算の最適化を実施し、学習性能を損なわずに効率性を向上させる。

実験結果

リサーチクエスチョン

RQ1従来、達成された目標の情報を活用していなかった政策勾配手法に、後向き学習を効果的に統合できるか？
RQ2重要度サンプリングは、政策勾配フレームワーク内での後向き軌道からの効率的かつ不偏な学習をどのように可能にするか？
RQ3標準的な政策勾配や後向き経験リプレイを備えたDQN（DQN+HER）と比較して、後向き政策勾配はスパarsely-rewarded環境におけるサンプル効率にどのような影響を与えるか？
RQ4HPGは、DQN+HERなどの最先端手法を上回るか同等の性能を示す環境は何か？また、その性能に影響を与える要因は何か？

主な発見

k=8のビット反転環境では、HPGとDQN+HERが同等のサンプル効率を達成したが、標準的なGCPGとDQNは学習に失敗した。
より複雑なk=16のビット反転タスクでは、HPGがDQN+HERをわずかに上回ったが、GCPGとDQNは依然として効果がなかった。
空の部屋環境では、HPGが最もサンプル効率が高かったが、良好な性能に到達した後はDQN+HERの方がより安定していた。
4部屋環境では、DQN+HERがHPGとGCPGを著しく上回り、部分的に観測可能なナビゲーションが中心の設定では、DQNベースの後向き手法がより効果的である可能性を示唆した。
Ms. Pac-Manでは、DQN+HERが他のすべての手法を上回った。HPGとGCPGは同等の性能を示したが、サンプル効率は劣っていた。
FetchPush環境では、HPGがすべてのベースラインを著しく上回り、DQN+HERやDQNも学習に失敗した。これは、スパarsely-rewardedな連続制御タスクにおいてHPGが優れていることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。