QUICK REVIEW

[논문 리뷰] Learning Adversarial MDPs with Bandit Feedback and Unknown Transition

Chi Jin, Tiancheng Jin|arXiv (Cornell University)|2019. 12. 03.

Advanced Bandit Algorithms Research참고 문헌 34인용 수 34

한 줄 요약

본 논문은 UOB-REPS를 도입하여, 미지의 전이와 밴딧 피드백이 있는 에피소드형 적대적 MDP에서 효율적인 알고리즘을 제시한다. 이 알고리즘은 근사적으로 √T의 후회를 달성하고 다항로그 요인을 제외하면 전체 정보 상한과 일치한다.

ABSTRACT

We consider the problem of learning in episodic finite-horizon Markov decision processes with an unknown transition function, bandit feedback, and adversarial losses. We propose an efficient algorithm that achieves $\mathcal{ ilde{O}}(L|X|\sqrt{|A|T})$ regret with high probability, where $L$ is the horizon, $|X|$ is the number of states, $|A|$ is the number of actions, and $T$ is the number of episodes. To the best of our knowledge, our algorithm is the first to ensure $\mathcal{ ilde{O}}(\sqrt{T})$ regret in this challenging setting; in fact it achieves the same regret bound as (Rosenberg & Mansour, 2019a) that considers an easier setting with full-information feedback. Our key technical contributions are two-fold: a tighter confidence set for the transition function, and an optimistic loss estimator that is inversely weighted by an $ extit{upper occupancy bound}$.

연구 동기 및 목표

에피소드형 유한-수평(MDPs)에서 알려지지 않은 전이와 적대적 손실을 가진 학습의 동기를 제시한다.
밴딧 피드백 하에서 전이에 대한 촘촘한 신뢰구간과 낙관적 손실 추정을 개발한다.
밴딧 피드백을 다루면서도 전체 정보 설정과 비교 가능한 서브선형 후회 경계를 달성한다.

제안 방법

정책 학습을 온라인 선형 최적화로 바꾸기 위해 점유(occupancy) 측정을 이용해 문제를 모델링한다.
다음 상태에 대한 확률을 상한으로 묶는 전이 함수에 대한 더 촘촘한 신뢰 구간을 구성한다.
신뢰 구간에서 도출된 임의성 탐색을 포함한 상한 점유 한계를 이용한 낙관적, 편향된 손실 추정기를 도입한다.
정책 업데이트를 위해 KL-발생(Bregman) 발산을 이용한 온라인 미러 디센트를 점유 측정에 적용한다.
점유 한계의 역방향 동적 프로그래밍(backward DP)과 탐욕적 최적화 루틴을 통해 상한 점유 한계를 효율적으로 계산한다.

실험 결과

연구 질문

RQ1전이 불확실성 하의 밴딧 피드백에서 에피소드형 적대적 MDP에서 서브선형 후회를 달성할 수 있는가?
RQ2이 설정에서 Online Mirror Descent를 가능하게 하는 전이에 대한 신뢰 구간과 낙관적 손실 추정기의 결합 방법은 무엇인가?
RQ3어떤 조건에서 어떤 방법으로 도출된 후회 경계가 높은 확률로 성립하는가?

주요 결과

UOB-REPS를 제안하여 고확률 하에서 후회 R_T = O~(L|X|√(|A|T))를 달성한다.
새로운 per-(x,a,x′) 신뢰 구간이 기존 결과를 단축시키고 더 촘촘한 분석을 가능하게 한다.
전이가 미지인 경우에도 다룰 수 있는 상한 점유 한계 기반의 손실 추정기를 도입한다.
이 도전적인 밴딧 설정에서 알고리즘이 O~(√T) 후회를 달성하여 다항로그 요인까지 전체 정보 경계에 근접함을 보여준다.
점유 한계 계산을 위한 역방향 DP 및 LP 스타일 최적화를 통해 효율적 구현 경로를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.