QUICK REVIEW

[論文レビュー] Logically-Constrained Reinforcement Learning

Mohammadhosein Hasanbeig, Alessandro Abate|arXiv (Cornell University)|Jan 24, 2018

Reinforcement Learning in Robotics参考文献 42被引用数 37

ひとこと要約

この論文では、与えられた線形時相論理（LTL）性質を満たす確率を最大化するように、未知のMDPに対して制御方策を合成する最初のモデルフリーRLアルゴリズムである論理制約付き強化学習（LCRL）を提示する。LTL式を限界決定的 Büchi 自動機（LDBA）に変換し、報酬を形状化することで、仕様に関連する状態への探索を促進する。これにより、モデルベース手法と比較して収束が速く、スケーラビリティに優れる。実験では反復回数が10倍減少することが観察された。

ABSTRACT

We present the first model-free Reinforcement Learning (RL) algorithm to synthesise policies for an unknown Markov Decision Process (MDP), such that a linear time property is satisfied. The given temporal property is converted into a Limit Deterministic Buchi Automaton (LDBA) and a robust reward function is defined over the state-action pairs of the MDP according to the resulting LDBA. With this reward function, the policy synthesis procedure is "constrained" by the given specification. These constraints guide the MDP exploration so as to minimize the solution time by only considering the portion of the MDP that is relevant to satisfaction of the LTL property. This improves performance and scalability of the proposed method by avoiding an exhaustive update over the whole state space while the efficiency of standard methods such as dynamic programming is hindered by excessive memory requirements, caused by the need to store a full-model in memory. Additionally, we show that the RL procedure sets up a local value iteration method to efficiently calculate the maximum probability of satisfying the given property, at any given state of the MDP. We prove that our algorithm is guaranteed to find a policy whose traces probabilistically satisfy the LTL property if such a policy exists, and additionally we show that our method produces reasonable control policies even when the LTL property cannot be satisfied. The performance of the algorithm is evaluated via a set of numerical examples. We observe an improvement of one order of magnitude in the number of iterations required for the synthesis compared to existing approaches.

研究の動機と目的

モデルフリーな設定において、LTLのような複雑な時相論理的仕様を満たす制御方策を合成する課題に対処すること。
動的計画法などのモデルベース手法が直面するスケーラビリティの制限（状態空間の完全な保存と全更新の必要性）を克服すること。
与えられたLTL性質を満たすために関連する状態空間領域に焦点を当てた探索を促進することで、効率的な方策学習を可能にすること。
完全なLTL満たしが確率的に不可能な場合でも、方策の存在と品質に関する理論的保証を提供すること。
完全なMDPモデルを必要とせず、オンザフライでLTL満たし確率の最大値を計算する価値反復法を開発すること。

提案手法

与えられたLTL式を、決定的ラビン自動機（DRA）よりもよりコンactかつ効率的な表現を提供する限界決定的 Büchi 自動機（LDBA）に変換する。
MDPとLDBAの間でオンザフライで同期的積を構築し、連携状態-行動の挙動を追跡する。
LDBAの受容条件に基づいて、MDPの状態-行動ペアに対する頑健な報酬関数を定義し、LTL性質の満たしに向けた進行を報酬化する。
この形状化された報酬を用いてモデルフリー強化学習（例：Q学習）を実行し、LTL式の満たし確率を最大化する方策を学習する。
関連する状態遷移に焦点を当てて、全状態空間の更新を避けるオンザフライ価値反復手順を実装し、各MDP状態におけるLTL満たし確率の最大値を計算する。
LDBAの構造を活用することで、DRAベースの手法と比較して報酬割り当てを簡素化し、計算コストを低減する。

実験結果

リサーチクエスチョン

RQ1時相論理的仕様（例：LTL）によってモデルフリー強化学習が効果的に制約可能かどうか。
RQ2LTLから自動機に変換する際、DRAの代わりにLDBAを使用することで、スケーラビリティと収束速度に顕著な向上が得られるか。
RQ3LDBAの受容条件から導出された報酬関数が、LTL満たし確率を最大化する方策へとRLを信頼性高く誘導できるか。
RQ4全状態空間の更新を避ける価値反復法を用いて、LTL性質の最大満たし確率を計算することが可能か。
RQ5収束速度とスケーラビリティの観点から、従来のモデルベースおよびモデルフリー手法と比較してLCRLはどのように性能を発揮するか。

主な発見

数値実験により、LCRLは従来の手法と比較して方策合成に必要な反復回数を10倍に削減することを確認した。
LTL性質に関連する状態空間領域に焦点を当てた探索のおかげで、古典的RLおよびモデルベース手法と比較して収束が著しく速い。
そのような方策が存在する場合、LCRLはLTL性質を満たす確率が最大となる方策を保証して発見する。
完全なLTL満たしが不可能な場合でも、非ゼロの満たし確率を持つ意味のある制御方策を生成する。
DRAの代わりにLDBAを使用することで、より簡潔な積MDP（例：1つの例で75状態 vs. 150状態）が得られ、計算複雑度が低下する。
オンザフライ価値反復法により、全MDPモデルを保存せずとも効率的な確率計算が可能となり、大規模システムへのスケーラビリティが向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。