[論文レビュー] Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension
一般的な価値関数近似を用いた RL に対して、特定のモデルを仮定せず、関数クラスの eluder 次元と log-covering 数に依存する後悔を持つ、証明可能に効率的な Q-learning アルゴリズムを提案する。安定な UCB 的ボーナスと効率化のためのデータサブサンプリング方式を用いる。
Value function approximation has demonstrated phenomenal empirical success in reinforcement learning (RL). Nevertheless, despite a handful of recent progress on developing theory for RL with linear function approximation, the understanding of general function approximation schemes largely remains missing. In this paper, we establish a provably efficient RL algorithm with general value function approximation. We show that if the value functions admit an approximation with a function class $\mathcal{F}$, our algorithm achieves a regret bound of $\widetilde{O}(\mathrm{poly}(dH)\sqrt{T})$ where $d$ is a complexity measure of $\mathcal{F}$ that depends on the eluder dimension [Russo and Van Roy, 2013] and log-covering numbers, $H$ is the planning horizon, and $T$ is the number interactions with the environment. Our theory generalizes recent progress on RL with linear value function approximation and does not make explicit assumptions on the model of the environment. Moreover, our algorithm is model-free and provides a framework to justify the effectiveness of algorithms used in practice.
研究の動機と目的
- 一般的な設定で線形以外の値関数近似を用いた RL を動機づけ、検討する。
- 一般的な関数クラス F で動作する、証明可能に効率的なモデルフリーの Q-learning アルゴリズムを開発する。
- アルゴリズムの後悔を eluder 次元と F および状態-行動空間のカバー数の観点から特徴づける。
提案手法
- Q-function 近似の一般的な関数クラス F を定義し、Bellman バックアップ適合性を仮定する:任意の V に対して、f_V ∈ F が f_V(s,a) = r(s,a) + ∑_{s'} P(s'|s,a) V(s') を満たす。
- リプレイバッファ上の最小二乗法フィットを用いて Q^k_h を反復的に計算し、探索を促進するために Stable UCB ボーナス b^k_h を付加する。
- データ駆動の信頼領域 F^k_h とその幅 w(F^k_h, s,a) をボーナスとして用い、Q^k_h が高確率で過大評価となるようにする。
- 重要度サンプリングに基づく感度サンプリングを用いてデータセットをサブサンプリングし、ボーナスの複雑さを制御することで安定性を導入する。
- アルゴリズム 1(F-LSVI)を、Q 値と greedy 方策の構築とともに提供し、アルゴリズム 3(Bonus)で安定ボーナスを生成する。
- Assumption 1 の下で、eluder dimension dim_E(F, δ/T^3) およびカバー数 N(F, δ/T^2) および N(S×A, δ/T) の関数として後悔を定量化する。
実験結果
リサーチクエスチョン
- RQ1モデルベースの仮定なしに、一般的な関数近似を用いた RL は証明可能な効率を達成しうるのか?
- RQ2価値関数クラスの eluder 次元とカバー数が、モデルフリーで関数近似を用いた RL アルゴリズムの後悔をどのように支配するのか?
- RQ3安定ボーナスやデータサブサンプリングのような実用的な機構は、探索と計算効率をどのように保証するのか?
- RQ4提案手法は線形関数近似や一般化線形関数近似の既存結果とどう関連し、どのように一般化するのか?
主な発見
- アルゴリズムは H^2 T に依存する後悔境界と、dim_E(F, δ/T^3) およびカバリング数の対数因子を含む複雑さ項に依存することを示す。
- タブラー RL の場合、境界は既存のタブラー結果と比較可能な形に縮小する一方、一般性のために素朴な境界は劣ることを認識する。
- F が d 次元線形または一般化線形の場合、dim_E(F, ε) = O(d log(1/ε)) または同様の界を持ち、対応する複雑さ項と対数に比例して後悔がスケールする。
- このアプローチは線形関数近似を用いた RL を一般化し、環境ダイナミクスを明示的に仮定しないモデルフリーの枠組みを提供する。
- Stable Bonus Function と Sensitivity-Sampling により、データセットサイズを制御し、Q の自信を持って過大評価を維持することで、計算的に実現可能な実装を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。