QUICK REVIEW

[논문 리뷰] Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes

Dongruo Zhou, Quanquan Gu|arXiv (Cornell University)|2020. 12. 15.

Advanced Bandit Algorithms Research참고 문헌 65인용 수 23

한 줄 요약

이 논문은 선형 혼합 마르코프 결정 과정에 대해 계산적으로 효율적인 강화 학습 알고리즘인 UCRL-VTR⁺ 및 UCLK⁺을 제안한다. 이는 자가정규화 마르코프 차이의 새로운 베르누이 스타일 농도 불등식을 사용한다. 알고리즘은 에피소드적 할인 없음 설정에서 $ widetilde{O}(dH\sqrt{T})$에 가까운 최소 최대 최소화된 손실 한계를 달성하고, 할인 설정에서는 $ widetilde{O}(d\sqrt{T}/(1-\gamma)^{1.5})$를 달성하며, 이는 알려진 하한값에 로그 요소를 제외하고 일치한다.

ABSTRACT

We study reinforcement learning (RL) with linear function approximation where the underlying transition probability kernel of the Markov decision process (MDP) is a linear mixture model (Jia et al., 2020; Ayoub et al., 2020; Zhou et al., 2020) and the learning agent has access to either an integration or a sampling oracle of the individual basis kernels. We propose a new Bernstein-type concentration inequality for self-normalized martingales for linear bandit problems with bounded noise. Based on the new inequality, we propose a new, computationally efficient algorithm with linear function approximation named $ ext{UCRL-VTR}^{+}$ for the aforementioned linear mixture MDPs in the episodic undiscounted setting. We show that $ ext{UCRL-VTR}^{+}$ attains an $ ilde O(dH\sqrt{T})$ regret where $d$ is the dimension of feature mapping, $H$ is the length of the episode and $T$ is the number of interactions with the MDP. We also prove a matching lower bound $Ω(dH\sqrt{T})$ for this setting, which shows that $ ext{UCRL-VTR}^{+}$ is minimax optimal up to logarithmic factors. In addition, we propose the $ ext{UCLK}^{+}$ algorithm for the same family of MDPs under discounting and show that it attains an $ ilde O(d\sqrt{T}/(1-γ)^{1.5})$ regret, where $γ\in [0,1)$ is the discount factor. Our upper bound matches the lower bound $Ω(d\sqrt{T}/(1-γ)^{1.5})$ proved by Zhou et al. (2020) up to logarithmic factors, suggesting that $ ext{UCLK}^{+}$ is nearly minimax optimal. To the best of our knowledge, these are the first computationally efficient, nearly minimax optimal algorithms for RL with linear function approximation.

연구 동기 및 목표

큰 MDP에서 선형 함수 근사에 대해 상한과 하한 간 격차를 해소하기 위해.
에피소드적 할인 없음 설정에서 거의 최소 최대 최소화된 손실 한계를 달성하는 계산적으로 효율적인 알고리즘을 개발하기 위해.
할인 설정으로 접근을 확장하고, 로그 요소를 제외한 하한과 일치하는 손실 한계를 유도하기 위해.
벡터 값 마르코프 차이에 대해 새로운 베르누이 스타일 농도 불등식을 수립하여 기존 자가정규화 한계를 향상시키기 위해.
제안된 알고리즘이 통합 또는 샘플링 오라클에 액세스할 수 있는 조건 하에서 선형 혼합 MDP 가정 하에 거의 최소 최대 최소화된 손실을 달성하는지 보여주기 위해.

제안 방법

벡터 값 마르코프 차이에 대해 새로운 베르누이 스타일 자가정규화 농도 불등식을 제안하여 노이즈 의존성을 $R\sqrt{d}$ 에서 $\sigma\sqrt{d}+R$ 으로 개선한다.
새로운 불등식을 적용하여 에피소드적 할인 없음 MDP에 대해 UCRL-VTR⁺를 설계하며, 허프딩 유형의 한계를 더 날카로운 베르누이 스타일의 신뢰 집합으로 대체한다.
동일한 불등식을 UCLK 프레임워크에 적응시켜 할인 MDP에 대해 UCLK⁺를 설계함으로써 계산적 효율성을 확보한다.
기저 커널에 대한 통합 또는 샘플링 오라클을 활용하여 선형 혼합 MDP에서 신뢰 집합과 정책 업데이트를 효율적으로 계산한다.
손실를 추정 오차와 최적화 오차 항으로 분해하고, 새로운 농도 불등식과 자가정규화 마르코프 차이 기법을 통해 이를 제한한다.
새로운 불등식을 사용하여 진짜 파ameter 벡터에 대한 고확률 신뢰 집합을 수립함으로써 더 날카로운 손실 분석이 가능하도록 한다.

실험 결과

연구 질문

RQ1계산적으로 효율적인 강화 학습 알고리즘이 선형 혼합 MDP에서 거의 최소 최대 최소화된 손실 한계를 달성할 수 있는가?
RQ2벡터 값 마르코프 차이에 대해 새로운 베르누이 스타일 농도 불등식이 선형 밴드잇 및 RL 설정에서 허프딩 유형의 한계보다 손실 한계를 향상시키는가?
RQ3UCRL-VTR⁺의 손실 한계는 에피소드적 할인 없음 설정에서 로그 요소를 제외하고 최적인가?
RQ4동일한 접근 방식을 할인 설정으로 확장할 수 있으며, 일치하는 손실 한계를 유도할 수 있는가?
RQ5제안된 알고리즘이 알려진 최소 최대 하한값에 로그 요소를 제외하고 일치하는 손실 한계를 달성하는가?

주요 결과

UCRL-VTR⁺는 에피소드적 할인 없음 설정에서 $\widetilde{O}(dH\sqrt{T})$ 손실 한계를 달성하며, 알려진 $\Omega(dH\sqrt{T})$ 하한값에 로그 요소를 제외하고 일치한다.
UCLK⁺는 할인 설정에서 $\widetilde{O}(d\sqrt{T}/(1-\gamma)^{1.5})$ 손실 한계를 달성하며, $\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$ 하한값에 로그 요소를 제외하고 일치한다.
제안된 베르누이 스타일 농도 불등식은 노이즈 의존성을 $R\sqrt{d}$ 에서 $\sigma\sqrt{d}+R$ 으로 개선하여 선형 함수 근사에 대해 더 날카로운 신뢰 구간을 제공한다.
통합 또는 샘플링 오라클에 액세스할 수 있는 조건 하에서 알고리즘은 계산적으로 효율적이다.
손실 분석 결과, 상한에서 지배적인 항이 $\sqrt{T}$ 비례로 증가함을 확인하여 샘플 효율성에서 거의 최적임을 확인한다.
결과적으로 이 연구는 선형 혼합 MDP에서 선형 함수 근사에 대해 계산적으로 효율적이고 거의 최소 최대 최소화된 손실을 달성하는 첫 번째 알고리즘을 확립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.