Skip to main content
QUICK REVIEW

[論文レビュー] Constrained Upper Confidence Reinforcement Learning

Liyuan Zheng, Lillian J. Ratliff|arXiv (Cornell University)|Jan 26, 2020
Reinforcement Learning in Robotics参考文献 27被引用数 29
ひとこと要約

本稿では、制約付きマルコフ決定過程(CMDP)のための制約付き上界信頼強化学習アルゴリズムであるC-UCRLを提案する。このアルゴリズムは、観測データに基づいて真の環境モデルを含む可能性の高いCMDPの集合を維持し、信頼区間を用いて制約の満たされ確率を高く保証する。真のCMDPが確率的に最大 $6\delta/(π^2 t_k^2)$ で第$k$エピソードにおいて妥当な集合から除外される確率が保証され、すべての状態行動ペアおよびエピソードにおいて制約が確率 $1-\delta$ 以上で満たされることが示された。

ABSTRACT

Constrained Markov Decision Processes are a class of stochastic decision problems in which the decision maker must select a policy that satisfies auxiliary cost constraints. This paper extends upper confidence reinforcement learning for settings in which the reward function and the constraints, described by cost functions, are unknown a priori but the transition kernel is known. Such a setting is well-motivated by a number of applications including exploration of unknown, potentially unsafe, environments. We present an algorithm C-UCRL and show that it achieves sub-linear regret ($ O(T^{\frac{3}{4}}\sqrt{\log(T/δ)})$) with respect to the reward while satisfying the constraints even while learning with probability $1-δ$. Illustrative examples are provided.

研究の動機と目的

  • 不確実性下でのCMDPにおいて制約の満たされ確率を保証する強化学習アルゴリズムの開発。
  • 真の環境モデルを含む可能性の高いCMDPの集合の維持。
  • 学習過程におけるモデルの正確性と制約遵守の両方に対して高確率保証を提供すること。
  • コストと遷移確率の上界信頼区間を用いて、探索と制約遵守のバランスをとること。

提案手法

  • C-UCRLは、第$k$エピソードまでに観測されたデータに基づいて、妥当なCMDPの集合 $\mathcal{M}_k$ を維持する。
  • 推定された遷移確率およびコストの周囲に不確実性集合を構築するために信頼区間を用いる。
  • 期待報酬を最大化すると同時に、信頼区間内での制約の満たされ確率を保証する行動を選択する。
  • 集中不等式を用いて、真のCMDPが妥当な集合 $\mathcal{M}_k$ の外にある確率を抑え込む。
  • すべての状態行動ペア、コスト $c_i$、およびエピソードにおいて、制約が確率 $1-\delta$ 以上で満たされることを保証する。

実験結果

リサーチクエスチョン

  • RQ1任意のエピソードにおいて、真のCMDPが妥当なモデル集合から除外される確率はどれくらいか?
  • RQ2モデルの不確実性下で、CMDPにおける探索と制約遵守のバランスはどのようにとれるか?
  • RQ3学習過程における制約遵守に対して、どのような高確率保証を提供できるか?
  • RQ4遷移確率およびコストの信頼区間は、アルゴリズムの性能と安全性にどのように影響するか?

主な発見

  • 第$k$エピソードにおいて、真のCMDP $M$ が妥当なCMDPの集合 $\mathcal{M}_k$ に含まれない確率は、$6\delta/(\pi^2 t_k^2)$ 以下である。
  • 確率 $1-\delta$ 以上で、すべての状態行動ペア、コスト $c_i$、およびエピソード $k$ において、すべての制約が満たされる。
  • アルゴリズムは、モデルの正確性と制約遵守の両方について、非漸近的かつ高確率の保証を提供する。
  • 集中不等式を用いて信頼区間を構築することで、推定誤差に対してロバストであることが保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。