QUICK REVIEW

[논문 리뷰] Logically-Correct Reinforcement Learning.

Mohammadhosein Hasanbeig, Alessandro Abate|arXiv (Cornell University)|2018. 01. 24.

Reinforcement Learning in Robotics참고 문헌 34인용 수 30

한 줄 요약

이 논문은 선형 시간 성질을 만족하는 MDP 정책을 합성하기 위해 강화 학습 알고리즘을 제안한다. 성질을 한계 결정성 Buchi 자동기(LDBA)로 변환하고, 제품 MDP를 구성하며, LDBA 수용 조건에 기반해 보상을 할당한다. 이 방법은 온라인 값 반복을 통해 만족 확률의 최대값을 계산할 수 있게 하여 기존 방법 대비 반복 횟수를 10배 감소시킨다.

ABSTRACT

We propose a novel Reinforcement Learning (RL) algorithm to synthesize policies for a Markov Decision Process (MDP), such that a linear time property is satisfied. We convert the property into a Limit Deterministic Buchi Automaton (LDBA), then construct a product MDP between the automaton and the original MDP. A reward function is then assigned to the states of the product automaton, according to accepting conditions of the LDBA. With this reward function, RL synthesizes a policy that satisfies the property: as such, the policy synthesis procedure is constrained by the given specification. Additionally, we show that the RL procedure sets up an online value iteration method to calculate the maximum probability of satisfying the given property, at any given state of the MDP - a convergence proof for the procedure is provided. Finally, the performance of the algorithm is evaluated via a set of numerical examples. We observe an improvement of one order of magnitude in the number of iterations required for the synthesis compared to existing approaches.

연구 동기 및 목표

복잡한 선형 시간 시간 논리 성질을 증명 가능하게 만족하는 MDP 정책을 합성하는 데 도전하는 것.
자동화 이론적 합성 기반으로 형식적 사양 검증을 강화 학습에 통합하는 것.
정책 학습 중에 주어진 성질을 만족하는 최대 확률을 온라인 방식으로 계산할 수 있도록 하는 것.
기존 방법에 비해 정책 합성에 필요한 학습 반복 횟수를 줄이는 것.

제안 방법

목표 행동을 표현하기 위해 선형 시간 성질을 한계 결정성 Buchi 자동기(LDBA)로 변환하는 것.
원래 MDP와 LDBA를 조합하여 공동 상태 공간을 인코딩하는 제품 MDP를 구성하는 것.
LDBA 수용 조건에 기반해 제품 MDP 상태에 보상 함수를 정의하여 정책 학습을 이끌어내는 것.
보상 함수를 적용하여 성질을 만족하는 확률을 최대화하는 정책을 합성하는 강화 학습을 수행하는 것.
어느 상태에서든 MDP 내에서 최대 만족 확률을 추정하기 위해 온라인 값 반복 절차를 사용하는 것.
제안된 보상 구조 하에서 온라인 값 반복 절차의 수렴성을 증명하는 것.

실험 결과

연구 질문

RQ1형식적 사양에 의해 유도된 강화 학습이 MDP에 대해 정당한 정책을 합성하는 데 효과적으로 작용할 수 있는가?
RQ2정책 학습 중에 선형 시간 성질을 만족하는 최대 확률을 온라인 방식으로 어떻게 계산할 수 있는가?
RQ3자동기 수용 조건에 기반한 어떤 보상 형태가 사양을 만족하는 정책으로의 수렴을 보장하는가?
RQ4제안된 방법이 기존의 사양 유도 강화 학습 접근법에 비해 학습 반복 횟수를 얼마나 줄이는가?

주요 결과

제안된 방법은 사양을 LDBA로 인코딩하고 제품 구성 방식을 통해 MDP에 통합함으로써 주어진 선형 시간 성질을 만족하는 정책을 성공적으로 합성한다.
LDBA 수용 조건에서 유도된 보상 함수가 학습 중에 에이전트가 성질을 만족하도록 효과적으로 이끌어낸다.
논문에서 증명한 바와 같이, 온라인 값 반복 절차는 MDP 내 임의의 상태에 대해 진짜 최대 만족 확률로 수렴한다.
수치적 평가 결과, 기존 방법에 비해 정책 합성에 필요한 반복 횟수에 한 차수의 개선이 이루어졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.