Skip to main content
QUICK REVIEW

[論文レビュー] Decoupling Exploration and Exploitation in Reinforcement Learning

Lukas Schäfer, Filippos Christianos|arXiv (Cornell University)|Jun 13, 2021
Reinforcement Learning in Robotics被引用数 5
ひとこと要約

本論文では、内因的報酬に基づく強化学習における不安定性とハイパーパrameterへの感受性を克服するため、探索と活用のための別個のポリシーを学習する、分離型強化学習(DeRL)を提案する。DeRLは、環境との相互作用回数を減らし、内因的報酬の減衰率に対してより高いロバスト性を示しながら、内因的報酬ベースラインと同等またはそれ以上の性能を達成する。

ABSTRACT

Intrinsic rewards are commonly applied to improve exploration in reinforcement learning. However, these approaches suffer from instability caused by non-stationary reward shaping and strong dependency on hyperparameters. In this work, we propose Decoupled RL (DeRL) which trains separate policies for exploration and exploitation. DeRL can be applied with on-policy and off-policy RL algorithms. We evaluate DeRL algorithms in two sparse-reward environments with multiple types of intrinsic rewards. We show that DeRL is more robust to scaling and speed of decay of intrinsic rewards and converges to the same evaluation returns than intrinsically motivated baselines in fewer interactions.

研究の動機と目的

  • 非定常な報酬形状が原因で生じる内因的報酬ベースの強化学習における不安定性の解消を目的とする。
  • 内因的報酬スケジューリングにおけるハイパーパrameter依存性の低減を目的とする。
  • 探索と活用のポリシーを分離することで、サンプル効率の向上を目的とする。
  • オンポリシーおよびオフポリシー強化学習アルゴリズムの両方との互換性を確保することを目的とする。
  • 内因的報酬の減衰率やスケーリングの変動に対するロバスト性の評価を目的とする。

提案手法

  • DeRLは、内因的報酬を用いて最適化される探索用ポリシーと、外的報酬を用いて最適化される活用用ポリシーの2つの別個のポリシーを学習する。
  • 探索ポリシーは、内因的好奇心または内因的リターンを最大化するために訓練される一方、活用ポリシーは外的リターンの最大化に注力する。
  • 2つのポリシーは独立して訓練され、最適化の目的が分離され、干渉が低減される。
  • 本手法は、PPO や SAC などのオンポリシーおよびオフポリシー強化学習アルゴリズムと両方互換性を持つ。
  • 内因的報酬信号は、探索ポリシーの訓練中にのみ使用され、活用ポリシーの更新時には使用されない。
  • このアプローチにより、探索および活用のコンponentsのハイパーパrameterを独立してチューニング可能となる。

実験結果

リサーチクエスチョン

  • RQ1DeRLは、スパース報酬環境において、内因的報酬ベースラインと比較して最終評価リターンでどの程度の性能を示すか?
  • RQ2DeRLは、内因的報酬の減衰率やスケーリングの変動に対してどの程度のロバスト性を示すか?
  • RQ3探索と活用の分離により、内因的報酬ベースの強化学習における訓練の不安定性は低減されるか?
  • RQ4DeRLは、内因的報酬ベースラインと比較して、環境との相互作用回数を減らしても同等の性能を達成できるか?
  • RQ5DeRLは、さまざまなオンポリシーおよびオフポリシー強化学習アルゴリズムにどの程度一般化できるか?

主な発見

  • DeRLは、スパース報酬環境において、内因的報酬ベースラインと同等またはそれ以上の評価リターンを達成する。
  • DeRLは、内因的報酬ベースラインと比較して、はるかに少ない環境との相互作用回数で最適性能に収束する。
  • DeRLは、広範な範囲の内因的報酬の減衰率およびスケーリング要因において、ロバストな性能を示す。
  • 分離アプローチにより、非定常な内因的報酬が原因で生じる訓練の不安定性が低減される。
  • DeRLは、内因的報酬スケジューリングのハイパーパラメータの選択にかかわらず、強力な性能を維持する。
  • 本手法は、オンポリシーおよびオフポリシー強化学習アルゴリズムの両方に対しても有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。