Skip to main content
QUICK REVIEW

[論文レビュー] Combating Reinforcement Learning's Sisyphean Curse with Intrinsic Fear

Zachary C. Lipton, Azizzadenesheli, Kamyar|arXiv (Cornell University)|Nov 3, 2016
Reinforcement Learning in Robotics参考文献 25被引用数 49
ひとこと要約

本論文では、直近の危機的状況のリスクを予測する恐怖モデルを訓練し、Q学習をこのスコアに基づいてペナルティ化することで、Catastrophic Forgettingに起因して危険な状態を繰り返し訪問してしまうDRLエージェントを防ぐ報酬形状化手法であるIntrinsic Fear(IF)を提案する。この手法は、広範な事前知識を必要とせず、Atariゲームやトイモデル環境において、サンプル効率を向上させるとともに、危機的状況を一貫して回避する。

ABSTRACT

Many practical environments contain catastrophic states that an optimal agent would visit infrequently or never. Even on toy problems, Deep Reinforcement Learning (DRL) agents tend to periodically revisit these states upon forgetting their existence under a new policy. We introduce intrinsic fear (IF), a learned reward shaping that guards DRL agents against periodic catastrophes. IF agents possess a fear model trained to predict the probability of imminent catastrophe. This score is then used to penalize the Q-learning objective. Our theoretical analysis bounds the reduction in average return due to learning on the perturbed objective. We also prove robustness to classification errors. As a bonus, IF models tend to learn faster, owing to reward shaping. Experiments demonstrate that intrinsic-fear DQNs solve otherwise pathological environments and improve on several Atari games.

研究の動機と目的

  • Catastrophic Forgettingに起因してDRLエージェントが危機的状態を繰り返し訪問する問題に対処すること。
  • 完全な環境モデリングを必要とせず、過去の危機的状態を識別できるという最小限の事前知識のみを用いる手法の開発。
  • 高リスクの軌道をペナルティ化する内在的報酬の形状化により、学習効率と安全性の向上。
  • 危険状態モデルの誤りおよび報酬の有界な摂動に対して、本手法のロバスト性を理論的に裏付けること。
  • 内在的恐怖がDQNエージェントが病理的環境を解消可能であり、Atariゲームにおいて標準DQNを上回ることを実証すること。

提案手法

  • 任意の状態から$ k_r $ステップ以内に危機的状態に到達する確率を予測する教師ありの恐怖モデルを訓練する。
  • 恐怖モデルの出力をQ学習の目的関数における学習済みの内在的ペナルティとして用い、恐怖係数でスケーリングすることで、高リスク行動を抑制する。
  • 安全状態と危険状態の別々のバッファを維持することで、恐怖モデルにおけるCatastrophic Forgettingを防ぎ、危険状態の認識を常に維持する。
  • 恐怖スコアをQ学習のターゲット更新に統合し、報酬の推定値にペナルティ項を追加する。
  • 優先順位付きサンプリングを用いた経験再生を実装するが、危険状態を記憶に保持することで、恐怖モデルの正確性を維持する。
  • 本手法は主なポリシー・ネットワークを変更せず、別個に継続的に訓練される恐怖モデルを介して報酬形状化に依存する。

実験結果

リサーチクエスチョン

  • RQ1学習済みの内在的報酬形状化機構は、Catastrophic Forgettingに起因して、既知の危機的状態を繰り返し訪問してしまうDRLエージェントを防げるか?
  • RQ2本手法が、まれだが深刻な障害が発生する環境において、学習効率と最終的パフォーマンスに与える影響は何か?
  • RQ3危険状態分類モデルの誤り、特に安全状態を危険状態と誤ってラベル付けする場合に、本手法はロバストか?
  • RQ4内在的恐怖は、特に高コストの失敗モードを有する標準的なAtari環境において、どの程度パフォーマンスを向上させるか?
  • RQ5内在的恐怖の使用により、トレーニングおよび評価中に危機的エピソードの数が顕著に減少するか?

主な発見

  • トイラベル環境「Adventure Seeker」では、標準DQNは回避を学習したにもかかわらず、繰り返し危機的状態を訪問するが、IFエージェントはそれらを永久に回避するよう学習する。
  • Cart-Poleでは、標準DQNポリシーが失敗モードに戻る傾向がある中で、IFエージェントは安全なポリシー領域に留まるよう学習し、転倒を回避する。
  • Seaquestでは、IFエージェントは標準DQNよりも高い平均報酬を達成し、失敗回数を減らす。
  • Asteroidsでは、IFエージェントは累積報酬が高く、ゲームオーバー状態の発生回数も顕著に減少し、安全性とパフォーマンスの両方が向上している。
  • Freewayでは、改善が最も顕著である:IFエージェントは、標準DQNよりもはるかに一貫して道路を渡るという最も一般的な失敗モードを回避する。
  • 理論的分析により、報酬の摂動が限定的で危険状態の訪問頻度が低い条件下では、摂動された目的関数により、元の目的関数の最適ポリシーとほぼ同等の期待報酬が得られることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。