Skip to main content
QUICK REVIEW

[論文レビュー] Provably Safe Reinforcement Learning for Stochastic Reach-Avoid Problems with Entropy Regularization

Abhijit Mazumdar, Rafal Wisniewski|VBN Forskningsportal (Aalborg Universitet)|Jan 13, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

本論文は安全性付き強化学習(p-safe RL)とエントロピー正則化を取り入れたER-pSRLを、確率的到達-回避CMDPに対して提案し、理論的な安全性保証と regret の境界を示す。

ABSTRACT

We consider the problem of learning the optimal policy for Markov decision processes with safety constraints. We formulate the problem in a reach-avoid setup. Our goal is to design online reinforcement learning algorithms that ensure safety constraints with arbitrarily high probability during the learning phase. To this end, we first propose an algorithm based on the optimism in the face of uncertainty (OFU) principle. Based on the first algorithm, we propose our main algorithm, which utilizes entropy regularization. We investigate the finite-sample analysis of both algorithms and derive their regret bounds. We demonstrate that the inclusion of entropy regularization improves the regret and drastically controls the episode-to-episode variability that is inherent in OFU-based safe RL algorithms.

研究の動機と目的

  • 安全クリティカルなMDPにおける学習の動機づけと、到達-回避設定における確率的安全性(p-safety)を用いた動機付け。
  • 学習中に高い確率で安全性を保証するOFUベースのオンラインpSRLの開発。
  • エントロピー正則化(ER-pSRL)を導入して後悔を改善し、エピソード間分散を安定化。
  • 学習を加速する代理集合を取り入れ、事前の状態空間構造が性能へ与える影響を分析。

提案手法

  • 終端のターゲット集合と非終端の危険および生存集合を持つCMDPとして問題を定式化。
  • 職業測度を用いた拡張LPをOFUベースで用いて安全性制約を課すpSRLを開発。
  • 決定的に安全な行動が存在しない場合においても確率的安全性の下で安全なベースライン方針を提供。
  • エントロピー正則化子をLP目的関数に追加して探索と安定性を促進するER-pSRLを導入。
  • pSRLおよびER-pSRLの有限サンプル後悔境界を導出し、変動性と収束の改善を含めて分析。
  • 事前の状態空間構造が知られる場合に学習を加速する代理集合を組み込む。

実験結果

リサーチクエスチョン

  • RQ1OFUベースのRLアプローチを用いて、学習中に確率的到達-回避CMDPで安全性を高い確率で保証できるか?
  • RQ2p-safe RLの有限サンプル後悔保証はどうなるか、エントロピー正則化は後悔と安定性を改善するか?
  • RQ3代理集合を組み込むことで安全性を損なうことなく学習を高速化できるか?
  • RQ4エントロピー正則化は方針のスパース性とエピソード間後悔のばらつきにどう影響するか?
  • RQ5安全基準は、安全な行動が決定論的には利用できない場合でも確率的安全性の下で構築可能か?

主な発見

  • 提案フレームワークの下でpSRLアルゴリズムは高い確率(p-safety)で安全性を達成する。
  • エントロピー正則化を持つER-pSRLは累積後悔境界を改善し、エピソード間のばらつきを低減する。
  • エントロピー正則化はOFUベースのpSRLと比較して方針更新を滑らかにし、探索を促進する。
  • 代理集合を組み込むことで、事前の状態空間構造が知られる場合に学習を加速し性能を向上させる。
  • 分析は有限サンプル後悔境界を提供し、提案アルゴリズムの安全性保証を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。