[論文レビュー] Maximum Entropy-Regularized Multi-Goal Reinforcement Learning
報酬に重みをつけたエントロピー目的関数を多目標RLに導入し、多様に達成された目標から学ぶための最大エントロピーベースの優先順位付け(MEP)を提案し、複数目標ロボットタスクにおける性能とサンプル効率を向上させる。
In Multi-Goal Reinforcement Learning, an agent learns to achieve multiple goals with a goal-conditioned policy. During learning, the agent first collects the trajectories into a replay buffer, and later these trajectories are selected randomly for replay. However, the achieved goals in the replay buffer are often biased towards the behavior policies. From a Bayesian perspective, when there is no prior knowledge about the target goal distribution, the agent should learn uniformly from diverse achieved goals. Therefore, we first propose a novel multi-goal RL objective based on weighted entropy. This objective encourages the agent to maximize the expected return, as well as to achieve more diverse goals. Secondly, we developed a maximum entropy-based prioritization framework to optimize the proposed objective. For evaluation of this framework, we combine it with Deep Deterministic Policy Gradient, both with or without Hindsight Experience Replay. On a set of multi-goal robotic tasks of OpenAI Gym, we compare our method with other baselines and show promising improvements in both performance and sample-efficiency.
研究の動機と目的
- ターゲット目標分布が未知の場合に、多様な達成目標からの学習を動機づける。
- 振る舞いポリシーに向けたリプレイバイアスを低減するために、最大エントロピーと多目標RLを組み合わせる。
- 元のエントロピー正則化目的関数の下界となる安全な代替目的を導出する。
- 目標の多様性を高めつつポリシーリターンを最大化する実践的な最適化フレームワーク(MEP)を提供する。
提案手法
- 蓄積報酬で軌道を重みづけする、多目標RLの加重エントロピー目的を定義する。
- 最適化を安定化させるために、下限となる安全な代替目的を導出する。
- 目標軌道の密度モデルを用いて、最大エントロピーベースの優先順位付け(MEP)フレームワークを導入する。
- 潜在変数モデル(混合ガウス分布)を用いて p(tau^g) をモデル化し、補完密度を用いて提案分布 q(tau^g) を構築する。
- オフポリシー法(HER の有無を問わず DDPG)と MEP 優先順位付けを組み合わせて、多様な目標をリプレイするよう最適化する。
- アルゴリズム(MEP)を提供し、OpenAI Gym のマルチゴールロボティックタスクでの改善を実証する。
実験結果
リサーチクエスチョン
- RQ1MEP を介して目標エントロピー項を組み込むことは、DDPG、DDPG+HER などのオフポリシー多目標RL手法の性能を改善するか。
- RQ2MEP はロボット操作タスクにおけるサンプル効率と性能を向上させるか。
- RQ3訓練中の達成目標分布のエントロピーに対して MEP はどのような影響を与えるか。
主な発見
| 方法 | Push - 成功 | Push - 時間 | Pick & Place - 成功 | Pick & Place - 時間 | Slide - 成功 | Slide - 時間 | Egg - 成功 | Egg - 時間 | Block - 成功 | Block - 時間 | Pen - 成功 | Pen - 時間 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| DDPG | 99.90% | 5.52h | 39.34% | 5.61h | 75.67% | 5.47h | - | - | - | - | - | - |
| DDPG+PER | 99.94% | 30.66h | 67.19% | 25.73h | 66.33% | 25.85h | - | - | - | - | - | - |
| DDPG+MEP | 99.96% | 6.76h | 76.02% | 6.92h | 76.77% | 6.66h | - | - | - | - | - | - |
| DDPG+HER | 76.19% | 7.33h | 20.32% | 8.47h | 27.28% | 7.55h | - | - | - | - | - | - |
| DDPG+HER+PER | 75.46% | 79.86h | 18.95% | 80.72h | 27.74% | 81.17h | - | - | - | - | - | - |
| DDPG+HER+MEP | 81.30% | 17.00h | 25.00% | 19.88h | 31.88% | 25.36h | - | - | - | - | - | - |
- MEP は6つのロボットタスクで収束を加速し、基準より最終性能を改善する。
- MEP は訓練をより速く行い、いくつかのタスクで最大で39.34パーセントポイントの性能向上を達成する。
- MEP は訓練時間を以前の PER より短縮しつつ、より強力な性能を提供する。
- MEP は環境全体で平均して約2倍のサンプル効率を向上させる。
- MEP訓練中に達成目標分布のエントロピーが増加し、意図した効果を確認する。
- アームタスクでは、DDPG+MEP が基準訓練時間の約1.2倍、DDPG+PER は約5倍で、MEP の計算効率の利点を強調する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。