Skip to main content
QUICK REVIEW

[論文レビュー] Conservative Safety Critics for Exploration

Homanga Bharadhwaj, Aviral Kumar|arXiv (Cornell University)|Oct 27, 2020
Reinforcement Learning in Robotics参考文献 37被引用数 32
ひとこと要約

CSC はRL探索中の壊滅的失敗を上限化する保守的な安全クリティックを学習し、証明可能な失敗境界を持つ安全なデータ収集を実現しつつ、競争力のあるタスク性能を維持します。

ABSTRACT

Safe exploration presents a major challenge in reinforcement learning (RL): when active data collection requires deploying partially trained policies, we must ensure that these policies avoid catastrophically unsafe regions, while still enabling trial and error learning. In this paper, we target the problem of safe exploration in RL by learning a conservative safety estimate of environment states through a critic, and provably upper bound the likelihood of catastrophic failures at every training iteration. We theoretically characterize the tradeoff between safety and policy improvement, show that the safety constraints are likely to be satisfied with high probability during training, derive provable convergence guarantees for our approach, which is no worse asymptotically than standard RL, and demonstrate the efficacy of the proposed approach on a suite of challenging navigation, manipulation, and locomotion tasks. Empirically, we show that the proposed approach can achieve competitive task performance while incurring significantly lower catastrophic failure rates during training than prior methods. Videos are at this url https://sites.google.com/view/conservative-safety-critics/home

研究の動機と目的

  • データ収集中の壊滅的な失敗を最小化することで、RLにおける安全な探索を促進する。
  • 探索を導くために、失敗確率を過大評価する保守的な安全クリティックを開発する。
  • 各学習反復での失敗確率を上限化する理論的保証を提供する。
  • 安全制約が収束とタスク性能に与える影響を限定的であることを示す。
  • 操作、ナビゲーション、移動タスクを横断する実証的有効性を示す。

提案手法

  • CQLベースの目的で、失敗の確率を上限化する保守的な安全クリティック Q_C(s,a) を学習する。
  • 連続するポリシー更新にKL発散制約を課し、状態分布の変化を抑える。
  • 期待失敗 V_C^pi(mu) ≤ chi の確率制約を設定し、ラグランジュ乗数を用いた primal-dual 勾配法で解く。
  • 環境との相互作用時に、Q_C(s,a) ≤ ε となる行動を選択する、反 rejection-サンプリング風のメカニズムを用い、ε は反復ごとに適応する。
  • ポリシー更新では A_C の代わりに過大推定された安全性を用い、Fisher情報量に基づくKL近似を用いた制約付き最適化を解く。
  • アップデート後の V_C^pi(mu) を境界づける理論的結果と、時間変化する chi の下で累積安全違反のサブ線形成長を示す。

実験結果

リサーチクエスチョン

  • RQ1オンラインRL訓練中の壊滅的失敗の確率を保守的な安全クリティックが上限化できるか?
  • RQ2保守的に学習されたクリティックを介して安全制約を適用することが、ポリシー学習と収束にどのような影響を与えるか?
  • RQ3CSC の下での安全性と性能に関する理論的保証(境界/収束)は何か?
  • RQ4CSC 学習済みポリシーは、従来の安全探索法と比較して安全でない失敗を減らしつつ競争力のあるタスク性能を達成するか?

主な発見

  • CSC は従来の安全探索法と比較して、学習中の平均的な壊滅的失敗を最大50%削減する。
  • CSC は安全制約を課してもタスク報酬の収束は競争力を保つ。
  • 理論的結果は、各ポリシー更新後の期待失敗確率に対する高確度境界を示す。
  • 時間変化する安全閾値 chi により累積安全違反 Reg_C(T) の成長がサブ線形になる。
  • 五つのシミュレートロボティクス領域(navigation, manipulation, locomotion)での経験的評価は、CSCによりより安全な探索を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。