[논문 리뷰] Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes
이 논문은 선형 혼합 마르코프 결정 과정에 대해 계산적으로 효율적인 강화 학습 알고리즘인 UCRL-VTR⁺ 및 UCLK⁺을 제안한다. 이는 자가정규화 마르코프 차이의 새로운 베르누이 스타일 농도 불등식을 사용한다. 알고리즘은 에피소드적 할인 없음 설정에서 $ widetilde{O}(dH\sqrt{T})$에 가까운 최소 최대 최소화된 손실 한계를 달성하고, 할인 설정에서는 $ widetilde{O}(d\sqrt{T}/(1-\gamma)^{1.5})$를 달성하며, 이는 알려진 하한값에 로그 요소를 제외하고 일치한다.
We study reinforcement learning (RL) with linear function approximation where the underlying transition probability kernel of the Markov decision process (MDP) is a linear mixture model (Jia et al., 2020; Ayoub et al., 2020; Zhou et al., 2020) and the learning agent has access to either an integration or a sampling oracle of the individual basis kernels. We propose a new Bernstein-type concentration inequality for self-normalized martingales for linear bandit problems with bounded noise. Based on the new inequality, we propose a new, computationally efficient algorithm with linear function approximation named $ ext{UCRL-VTR}^{+}$ for the aforementioned linear mixture MDPs in the episodic undiscounted setting. We show that $ ext{UCRL-VTR}^{+}$ attains an $ ilde O(dH\sqrt{T})$ regret where $d$ is the dimension of feature mapping, $H$ is the length of the episode and $T$ is the number of interactions with the MDP. We also prove a matching lower bound $Ω(dH\sqrt{T})$ for this setting, which shows that $ ext{UCRL-VTR}^{+}$ is minimax optimal up to logarithmic factors. In addition, we propose the $ ext{UCLK}^{+}$ algorithm for the same family of MDPs under discounting and show that it attains an $ ilde O(d\sqrt{T}/(1-γ)^{1.5})$ regret, where $γ\in [0,1)$ is the discount factor. Our upper bound matches the lower bound $Ω(d\sqrt{T}/(1-γ)^{1.5})$ proved by Zhou et al. (2020) up to logarithmic factors, suggesting that $ ext{UCLK}^{+}$ is nearly minimax optimal. To the best of our knowledge, these are the first computationally efficient, nearly minimax optimal algorithms for RL with linear function approximation.
연구 동기 및 목표
- 큰 MDP에서 선형 함수 근사에 대해 상한과 하한 간 격차를 해소하기 위해.
- 에피소드적 할인 없음 설정에서 거의 최소 최대 최소화된 손실 한계를 달성하는 계산적으로 효율적인 알고리즘을 개발하기 위해.
- 할인 설정으로 접근을 확장하고, 로그 요소를 제외한 하한과 일치하는 손실 한계를 유도하기 위해.
- 벡터 값 마르코프 차이에 대해 새로운 베르누이 스타일 농도 불등식을 수립하여 기존 자가정규화 한계를 향상시키기 위해.
- 제안된 알고리즘이 통합 또는 샘플링 오라클에 액세스할 수 있는 조건 하에서 선형 혼합 MDP 가정 하에 거의 최소 최대 최소화된 손실을 달성하는지 보여주기 위해.
제안 방법
- 벡터 값 마르코프 차이에 대해 새로운 베르누이 스타일 자가정규화 농도 불등식을 제안하여 노이즈 의존성을 $R\sqrt{d}$ 에서 $\sigma\sqrt{d}+R$ 으로 개선한다.
- 새로운 불등식을 적용하여 에피소드적 할인 없음 MDP에 대해 UCRL-VTR⁺를 설계하며, 허프딩 유형의 한계를 더 날카로운 베르누이 스타일의 신뢰 집합으로 대체한다.
- 동일한 불등식을 UCLK 프레임워크에 적응시켜 할인 MDP에 대해 UCLK⁺를 설계함으로써 계산적 효율성을 확보한다.
- 기저 커널에 대한 통합 또는 샘플링 오라클을 활용하여 선형 혼합 MDP에서 신뢰 집합과 정책 업데이트를 효율적으로 계산한다.
- 손실를 추정 오차와 최적화 오차 항으로 분해하고, 새로운 농도 불등식과 자가정규화 마르코프 차이 기법을 통해 이를 제한한다.
- 새로운 불등식을 사용하여 진짜 파ameter 벡터에 대한 고확률 신뢰 집합을 수립함으로써 더 날카로운 손실 분석이 가능하도록 한다.
실험 결과
연구 질문
- RQ1계산적으로 효율적인 강화 학습 알고리즘이 선형 혼합 MDP에서 거의 최소 최대 최소화된 손실 한계를 달성할 수 있는가?
- RQ2벡터 값 마르코프 차이에 대해 새로운 베르누이 스타일 농도 불등식이 선형 밴드잇 및 RL 설정에서 허프딩 유형의 한계보다 손실 한계를 향상시키는가?
- RQ3UCRL-VTR⁺의 손실 한계는 에피소드적 할인 없음 설정에서 로그 요소를 제외하고 최적인가?
- RQ4동일한 접근 방식을 할인 설정으로 확장할 수 있으며, 일치하는 손실 한계를 유도할 수 있는가?
- RQ5제안된 알고리즘이 알려진 최소 최대 하한값에 로그 요소를 제외하고 일치하는 손실 한계를 달성하는가?
주요 결과
- UCRL-VTR⁺는 에피소드적 할인 없음 설정에서 $\widetilde{O}(dH\sqrt{T})$ 손실 한계를 달성하며, 알려진 $\Omega(dH\sqrt{T})$ 하한값에 로그 요소를 제외하고 일치한다.
- UCLK⁺는 할인 설정에서 $\widetilde{O}(d\sqrt{T}/(1-\gamma)^{1.5})$ 손실 한계를 달성하며, $\Omega(d\sqrt{T}/(1-\gamma)^{1.5})$ 하한값에 로그 요소를 제외하고 일치한다.
- 제안된 베르누이 스타일 농도 불등식은 노이즈 의존성을 $R\sqrt{d}$ 에서 $\sigma\sqrt{d}+R$ 으로 개선하여 선형 함수 근사에 대해 더 날카로운 신뢰 구간을 제공한다.
- 통합 또는 샘플링 오라클에 액세스할 수 있는 조건 하에서 알고리즘은 계산적으로 효율적이다.
- 손실 분석 결과, 상한에서 지배적인 항이 $\sqrt{T}$ 비례로 증가함을 확인하여 샘플 효율성에서 거의 최적임을 확인한다.
- 결과적으로 이 연구는 선형 혼합 MDP에서 선형 함수 근사에 대해 계산적으로 효율적이고 거의 최소 최대 최소화된 손실을 달성하는 첫 번째 알고리즘을 확립한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.