QUICK REVIEW

[논문 리뷰] Online Convex Optimization in Adversarial Markov Decision Processes

Aviv Rosenberg, Yishay Mansour|arXiv (Cornell University)|2019. 05. 19.

Reinforcement Learning in Robotics인용 수 45

한 줄 요약

논문은 온라인 학습을 위한 UC-O-REPS 알고리즘을 제시한다. 이는 에피소드형 루프-프리 적대적 MDP에서 unknown transitions에 대해 near-optimal regret bound를 달성하고 convex 성능 기준으로 확장한다.

ABSTRACT

We consider online learning in episodic loop-free Markov decision processes (MDPs), where the loss function can change arbitrarily between episodes, and the transition function is not known to the learner. We show $ ilde{O}(L|X|\sqrt{|A|T})$ regret bound, where $T$ is the number of episodes, $X$ is the state space, $A$ is the action space, and $L$ is the length of each episode. Our online algorithm is implemented using entropic regularization methodology, which allows to extend the original adversarial MDP model to handle convex performance criteria (different ways to aggregate the losses of a single episode) , as well as improve previous regret bounds.

연구 동기 및 목표

미지의 동역학과 변화하는 손실을 갖는 적대적 MDP에서 온라인 학습의 필요성을 제시한다.
낮은 후회를 달성하기 위해 온라인 볼록 최적화와 강화 학습을 결합한 알고리즘을 개발한다.
적대적 MDP 모델을 확장하여 볼록 성능 기준을 지원한다.
행동 공간과 상태 공간의 크기에 대해 기존의 후회 경계를 개선하고 높은 확률 보장을 다룬다.

제안 방법

온라인 볼록 최적화로 MDP 학습을 재구성하기 위해 점유도(점유 측정치, occupancy measures)를 도입한다.
엔트로피 정규화를 이용한 Online Mirror Descent(OMD)를 사용하여 점유 측정치를 업데이트한다.
미지의 전이 동역학을 다루기 위해 UCRL-2 스타일의 신뢰 구간(confidence sets)을 도입한다.
불확실성에 직면한 탐욕적(optimism in the face of uncertainty) 접근법과 신뢰 구간 내에서 최적화하는 UC-O-REPS를 개발한다.
점유 측정치에 대한 볼록 프로그래밍으로 축약되는 실용적인 최적화 단계를 제공한다.
근사 오차와 온라인 최적화 오차로 나뉘는 후회 경계를 증명한다.

실험 결과

연구 질문

RQ1미지의 전이(unknown transitions)를 갖는 적대적 MDP에서의 온라인 학습이 sublinear regret를 달성할 수 있는가?
RQ2점유 측정치를 어떻게 사용하여 적대적 MDP 학습을 온라인 볼록 최적화 문제로 형상화할 수 있는가?
RQ3OMD와 신뢰 구간 계획의 결합이 볼록 성능 기준하에서 거의 최적의 후회를 가져오는가?
RQ4프레임워크가 총 기대 손실을 넘어 다차원 볼록 손실 합산을 어떻게 수용할 수 있는가?
RQ5미지의 전이 적대적 MDP에 대한 높은 확률의 후회 보장은 무엇인가?

주요 결과

미지의 동역학을 갖는 적대적 손실하에서 후회 경계 䟂tilde{O}(L|X|\\,sqrt{|A|T})를 달성한다.
엔트로피 정규화와 Online Mirror Descent를 통해 적대적 MDP를 볼록 성능 기준으로 확장한다.
경계가 높은 확률로 성립한다는 것을 보이며, 큰 행동 공간에서의 기존 경계보다 개선된다.
후회에 대한 높은 확률 경계가 L, |X|, sqrt(T), sqrt(|A|)에 비례하도록 제공한다.
미지의 전이를 다루기 위해 신뢰 구간과 낙관적 계획을 사용하는 실용적인 알고리즘(UC-O-REPS)을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.