Skip to main content
QUICK REVIEW

[논문 리뷰] Logically-Constrained Reinforcement Learning

Mohammadhosein Hasanbeig, Alessandro Abate|arXiv (Cornell University)|2018. 01. 24.
Reinforcement Learning in Robotics참고 문헌 42인용 수 37
한 줄 요약

이 논문은 선형 시간 논리(LTL) 성질을 만족시키는 확률을 최대화하기 위해 알려지지 않은 MDP에 대해 정책을 합성하는 최초의 모델-프리 강화학습(Reinforcement Learning, RL) 알고리즘인 논리적으로 제약된 강화학습(LCRL)을 제안한다. LTL 공식을 한계 결정성 부치 오토마타(LDBA)로 변환하고 이를 보상 형상화에 활용함으로써, LCRL은 사양과 관련된 상태로의 탐색을 이끌어내어 모델 기반 방법에 비해 더 빠른 수렴과 확장성을 달성한다. 실험에서는 반복 횟수를 10배 감소시킨 결과를 관찰했다.

ABSTRACT

We present the first model-free Reinforcement Learning (RL) algorithm to synthesise policies for an unknown Markov Decision Process (MDP), such that a linear time property is satisfied. The given temporal property is converted into a Limit Deterministic Buchi Automaton (LDBA) and a robust reward function is defined over the state-action pairs of the MDP according to the resulting LDBA. With this reward function, the policy synthesis procedure is "constrained" by the given specification. These constraints guide the MDP exploration so as to minimize the solution time by only considering the portion of the MDP that is relevant to satisfaction of the LTL property. This improves performance and scalability of the proposed method by avoiding an exhaustive update over the whole state space while the efficiency of standard methods such as dynamic programming is hindered by excessive memory requirements, caused by the need to store a full-model in memory. Additionally, we show that the RL procedure sets up a local value iteration method to efficiently calculate the maximum probability of satisfying the given property, at any given state of the MDP. We prove that our algorithm is guaranteed to find a policy whose traces probabilistically satisfy the LTL property if such a policy exists, and additionally we show that our method produces reasonable control policies even when the LTL property cannot be satisfied. The performance of the algorithm is evaluated via a set of numerical examples. We observe an improvement of one order of magnitude in the number of iterations required for the synthesis compared to existing approaches.

연구 동기 및 목표

  • 복잡한 시간 논리 사양, 예를 들어 LTL과 같은 것을 갖는 MDP에 대해 모델-프리 환경에서 증명 가능하게 만족시키는 제어 정책을 합성하는 데 도전하는 것.
  • 모델 기반 방법(예: 동적 프로그래밍)의 확장성 한계를 극복하는 것. 이러한 방법들은 전체 상태공간 저장과 철저한 업데이트를 필요로 한다.
  • 주어진 LTL 성질을 만족시키는 데 관련된 상태공간 영역에 집중함으로써 효율적인 정책 학습을 가능하게 하는 것.
  • 완전한 LTL 만족이 확률적으로 불가능한 경우에도 정책의 존재성과 품질에 대한 이론적 보장을 제공하는 것.
  • 전체 MDP 모델이 필요 없이 실시간으로 LTL 만족 확률의 최대값을 계산하는 값 반복 방법을 개발하는 것.

제안 방법

  • 주어진 LTL 공식을 더 컴act하고 효율적인 표현을 제공하는 한계 결정성 부치 오토마타(LDBA)로 변환한다. 이는 결정성 라빈 오토마타(DRA)보다 유리하다.
  • MDP와 LDBA 간의 실시간 동기화 제품을 구성하여 공동 상태-행동 행동을 추적한다.
  • LDBA의 수용 조건에 기반하여 MDP 상태-행동 쌍에 대한 강건한 보상 함수를 정의한다. 이는 LTL 성질을 만족시키는 데의 진전을 보상한다.
  • 이러한 형상화된 보상과 함께 모델-프리 강화학습(예: Q-학습)을 사용하여 LTL 공식을 만족시키는 확률을 최대화하는 정책을 학습한다.
  • 모든 상태 전이에 대한 전체 상태공간 업데이트를 피하기 위해, 각 MDP 상태에서 LTL 만족 확률의 최대값을 계산하는 실시간 값 반복 절차를 구현한다.
  • LDBA의 구조를 활용하여 DRA 기반 방법에 비해 보상 할당을 단순화하고 계산 오버헤드를 감소시킨다.

실험 결과

연구 질문

  • RQ1모델-프리 강화학습이 LTL과 같은 시간 논리 사양으로 효과적으로 제약을 받을 수 있는가?
  • RQ2LTL에서 오토마타로의 변환에 DRA 대신 LDBA를 사용할 경우, 확장성과 수렴 속도에 있어 뚜렷한 향상이 이루어지는가?
  • RQ3LDBA의 수용 조건에서 유도된 보상 함수가 RL이 LTL 만족 확률을 최대화하는 정책으로 이끄는 데 신뢰성 있게 기여하는가?
  • RQ4전체 상태공간 업데이트를 피하는 값 반복 방법을 사용하여 LTL 성질의 최대 만족 확률을 계산하는 것이 가능한가?
  • RQ5LCRL은 기존의 모델 기반 및 모델-프리 접근법에 비해 수렴 속도와 확장성 측면에서 어떻게 성능을 내는가?

주요 결과

  • 수치 실험을 통해 LCRL은 기존 접근법 대비 정책 합성에 필요한 반복 횟수를 10배 감소시킴을 입증했다.
  • LTL 성질과 관련된 상태공간 영역에 집중함으로써 고전적 RL 및 모델 기반 방법보다 훨씬 더 신속하게 수렴한다.
  • 해당 정책이 존재하는 한 LCRL은 LTL 성질을 만족시키는 데 최대 가능 확률을 갖는 정책을 보장한다.
  • 완전한 LTL 만족이 불가능한 경우에도 LCRL은 비제로 만족 확률을 갖는 합리적이고 의미 있는 제어 정책을 생성한다.
  • DRA 대비 LDBA 사용은 더 간결한 제품 MDP를 제공한다(예: 한 예에서 75개 상태 대비 150개 상태)로 계산 복잡도를 감소시킨다.
  • 실시간 값 반복 방법은 전체 MDP 모델을 저장하지 않아도 되므로 효율적인 확률 계산을 가능하게 하여 대규모 시스템에 대한 확장성을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.