QUICK REVIEW

[論文レビュー] Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes

Dongruo Zhou, Quanquan Gu|arXiv (Cornell University)|Dec 15, 2020

Advanced Bandit Algorithms Research参考文献 65被引用数 23

ひとこと要約

本稿では、自己正規化マルティンググールズのための新しいベルンシュタイン型集中不等式を用いて、線形混合マルコフ決定過程に対する計算的に効率的な強化学習アルゴリズムである UCRL-VTR⁺ および UCLK⁺ を提案する。これらのアルゴリズムは、エピソード的未割引設定において $acksim{O}(dHackslash sqrt{T})$ のほぼミニマックス最適なレグレットバウンドを達成し、割引設定下では $acksim{O}(dackslash sqrt{T}/(1-\gamma)^{1.5})$ を達成する。これは、対数要因を除いて既知の下界と一致する。

ABSTRACT

We study reinforcement learning (RL) with linear function approximation where the underlying transition probability kernel of the Markov decision process (MDP) is a linear mixture model (Jia et al., 2020; Ayoub et al., 2020; Zhou et al., 2020) and the learning agent has access to either an integration or a sampling oracle of the individual basis kernels. We propose a new Bernstein-type concentration inequality for self-normalized martingales for linear bandit problems with bounded noise. Based on the new inequality, we propose a new, computationally efficient algorithm with linear function approximation named $ ext{UCRL-VTR}^{+}$ for the aforementioned linear mixture MDPs in the episodic undiscounted setting. We show that $ ext{UCRL-VTR}^{+}$ attains an $ ilde O(dH\sqrt{T})$ regret where $d$ is the dimension of feature mapping, $H$ is the length of the episode and $T$ is the number of interactions with the MDP. We also prove a matching lower bound $Ω(dH\sqrt{T})$ for this setting, which shows that $ ext{UCRL-VTR}^{+}$ is minimax optimal up to logarithmic factors. In addition, we propose the $ ext{UCLK}^{+}$ algorithm for the same family of MDPs under discounting and show that it attains an $ ilde O(d\sqrt{T}/(1-γ)^{1.5})$ regret, where $γ\in [0,1)$ is the discount factor. Our upper bound matches the lower bound $Ω(d\sqrt{T}/(1-γ)^{1.5})$ proved by Zhou et al. (2020) up to logarithmic factors, suggesting that $ ext{UCLK}^{+}$ is nearly minimax optimal. To the best of our knowledge, these are the first computationally efficient, nearly minimax optimal algorithms for RL with linear function approximation.

研究の動機と目的

大規模なMDPにおける線形関数近似を用いた強化学習における上界と下界のギャップを埋める。
エピソード的未割引設定において、ほぼミニマックス最適なレグレットを達成する計算的に効率的なアルゴリズムを開発する。
アプローチを割引設定に拡張し、対数要因を除いて一致するレグレットバウンドを導出する。
ベクトル値マルティンググールズに対する新しいベルンシュタイン型集中不等式を確立し、既存の自己正規化バウンドを改善する。
統合またはサンプリングオラクルへのアクセスを前提として、提案されたアルゴリズムが線形混合MDP仮定下でほぼミニマックス最適なレグレットを達成することを示す。

提案手法

ベクトル値マルティンググールズに対する新しいベルンシュタイン型自己正規化集中不等式を提案し、ノイズ依存性を $R\sqrt{d}$ から $\sigma\sqrt{d}+R$ に改善する。
新しい不等式を応用して、Hoeffding型バウンドをよりタイトなベルンシュタイン型信頼集合に置き換えることで、エピソード的未割引MDP用の UCRL-VTR⁺ を設計する。
同じ不等式を UCLK フレームワークに適応することで、割引MDP用の UCLK⁺ を設計し、計算効率を保証する。
線形混合MDPにおける信頼集合および方策更新の効率的計算のために、統合またはサンプリングオラクルを活用する。
レグレットを推定誤差と最適化誤差の項に分解し、新しい集中不等式および自己正規化マルティンググールズ技術を用いてそれぞれをバウンドする。
新しい不等式を用いて真のパラメーターベクトルの高確率的信頼集合を確立し、よりタイトなレグレット解析を可能にする。

実験結果

リサーチクエスチョン

RQ1計算的に効率的な強化学習アルゴリズムは、線形混合MDPにおいてほぼミニマックス最適なレグレットを達成できるか？
RQ2ベクトル値マルティンググールズに対するベルンシュタイン型集中不等式は、線形バンディットおよびRL設定においてHoeffding型バウンドと比較してレグレットバウンドを改善できるか？
RQ3UCRL-VTR⁺ のレグレットは、エピソード的未割引設定において対数要因を除いて最適か？
RQ4同じアプローチを割引設定に拡張でき、一致するレグレットバウンドを得られるか？
RQ5提案されたアルゴリズムは、既知のミニマックス下界と対数要因を除いて一致するレグレットバウンドを達成するか？

主な発見

UCRL-VTR⁺ はエピソード的未割引設定において $\backsim{O}(dH\backslash sqrt{T})$ のレグレットバウンドを達成し、既知の $\Omega(dH\backslash sqrt{T})$ の下界と対数要因を除いて一致する。
UCLK⁺ は割引設定下で $\backsim{O}(d\backslash sqrt{T}/(1-\gamma)^{1.5})$ のレグレットバウンドを達成し、$\Omega(d\backslash sqrt{T}/(1-\gamma)^{1.5})$ の下界と対数要因を除いて一致する。
提案されたベルンシュタイン型集中不等式により、ノイズ依存性が $R\sqrt{d}$ から $\sigma\sqrt{d}+R$ に改善され、線形関数近似におけるよりタイトな信頼バウンドが得られる。
統合またはサンプリングオラクルへのアクセスを仮定すると、アルゴリズムは計算的に効率的である。
レグレット解析により、バウンドの主要項が $\sqrt{T}$ のスケーリングに従うことが示され、サンプル効率における近似的最適性が裏付けられる。
本研究は、線形混合MDPにおける線形関数近似のための、計算的に効率的かつほぼミニマックス最適なRLアルゴリズムの初の確立を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。