Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Adversarial MDPs with Bandit Feedback and Unknown Transition

Chi Jin, Tiancheng Jin|arXiv (Cornell University)|2019. 12. 03.
Advanced Bandit Algorithms Research참고 문헌 34인용 수 34
한 줄 요약

본 논문은 UOB-REPS를 도입하여, 미지의 전이와 밴딧 피드백이 있는 에피소드형 적대적 MDP에서 효율적인 알고리즘을 제시한다. 이 알고리즘은 근사적으로 √T의 후회를 달성하고 다항로그 요인을 제외하면 전체 정보 상한과 일치한다.

ABSTRACT

We consider the problem of learning in episodic finite-horizon Markov decision processes with an unknown transition function, bandit feedback, and adversarial losses. We propose an efficient algorithm that achieves $\mathcal{ ilde{O}}(L|X|\sqrt{|A|T})$ regret with high probability, where $L$ is the horizon, $|X|$ is the number of states, $|A|$ is the number of actions, and $T$ is the number of episodes. To the best of our knowledge, our algorithm is the first to ensure $\mathcal{ ilde{O}}(\sqrt{T})$ regret in this challenging setting; in fact it achieves the same regret bound as (Rosenberg & Mansour, 2019a) that considers an easier setting with full-information feedback. Our key technical contributions are two-fold: a tighter confidence set for the transition function, and an optimistic loss estimator that is inversely weighted by an $ extit{upper occupancy bound}$.

연구 동기 및 목표

  • 에피소드형 유한-수평(MDPs)에서 알려지지 않은 전이와 적대적 손실을 가진 학습의 동기를 제시한다.
  • 밴딧 피드백 하에서 전이에 대한 촘촘한 신뢰구간과 낙관적 손실 추정을 개발한다.
  • 밴딧 피드백을 다루면서도 전체 정보 설정과 비교 가능한 서브선형 후회 경계를 달성한다.

제안 방법

  • 정책 학습을 온라인 선형 최적화로 바꾸기 위해 점유(occupancy) 측정을 이용해 문제를 모델링한다.
  • 다음 상태에 대한 확률을 상한으로 묶는 전이 함수에 대한 더 촘촘한 신뢰 구간을 구성한다.
  • 신뢰 구간에서 도출된 임의성 탐색을 포함한 상한 점유 한계를 이용한 낙관적, 편향된 손실 추정기를 도입한다.
  • 정책 업데이트를 위해 KL-발생(Bregman) 발산을 이용한 온라인 미러 디센트를 점유 측정에 적용한다.
  • 점유 한계의 역방향 동적 프로그래밍(backward DP)과 탐욕적 최적화 루틴을 통해 상한 점유 한계를 효율적으로 계산한다.

실험 결과

연구 질문

  • RQ1전이 불확실성 하의 밴딧 피드백에서 에피소드형 적대적 MDP에서 서브선형 후회를 달성할 수 있는가?
  • RQ2이 설정에서 Online Mirror Descent를 가능하게 하는 전이에 대한 신뢰 구간과 낙관적 손실 추정기의 결합 방법은 무엇인가?
  • RQ3어떤 조건에서 어떤 방법으로 도출된 후회 경계가 높은 확률로 성립하는가?

주요 결과

  • UOB-REPS를 제안하여 고확률 하에서 후회 R_T = O~(L|X|√(|A|T))를 달성한다.
  • 새로운 per-(x,a,x′) 신뢰 구간이 기존 결과를 단축시키고 더 촘촘한 분석을 가능하게 한다.
  • 전이가 미지인 경우에도 다룰 수 있는 상한 점유 한계 기반의 손실 추정기를 도입한다.
  • 이 도전적인 밴딧 설정에서 알고리즘이 O~(√T) 후회를 달성하여 다항로그 요인까지 전체 정보 경계에 근접함을 보여준다.
  • 점유 한계 계산을 위한 역방향 DP 및 LP 스타일 최적화를 통해 효율적 구현 경로를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.