QUICK REVIEW

[論文レビュー] Agnostic Q-learning with Function Approximation in Deterministic Systems: Tight Bounds on Approximation Error and Sample Complexity

Simon S. Du, Jason D. Lee|arXiv (Cornell University)|Feb 17, 2020

Advanced Bandit Algorithms Research参考文献 34被引用数 23

ひとこと要約

本稿では、決定的MDPにおける関数近似を用いた再帰的Q学習アルゴリズムを提案し、アグノスティック設定下で最適なサンプル複雑度を達成する。近似誤差δがO(ρ/√dim_E)のとき、O(dim_E)の軌道数で最適方策が得られることを示すtightな境界を確立し、関数近似を伴うアグノスティック強化学習における未解決問題を解決する。

ABSTRACT

The current paper studies the problem of agnostic $Q$-learning with function approximation in deterministic systems where the optimal $Q$-function is approximable by a function in the class $\mathcal{F}$ with approximation error $δ\ge 0$. We propose a novel recursion-based algorithm and show that if $δ= O\left(ρ/\sqrt{\dim_E} ight)$, then one can find the optimal policy using $O\left(\dim_E ight)$ trajectories, where $ρ$ is the gap between the optimal $Q$-value of the best actions and that of the second-best actions and $\dim_E$ is the Eluder dimension of $\mathcal{F}$. Our result has two implications: 1) In conjunction with the lower bound in [Du et al., ICLR 2020], our upper bound suggests that the condition $δ= \widetildeΘ\left(ρ/\sqrt{\mathrm{dim}_E} ight)$ is necessary and sufficient for algorithms with polynomial sample complexity. 2) In conjunction with the lower bound in [Wen and Van Roy, NIPS 2013], our upper bound suggests that the sample complexity $\widetildeΘ\left(\mathrm{dim}_E ight)$ is tight even in the agnostic setting. Therefore, we settle the open problem on agnostic $Q$-learning proposed in [Wen and Van Roy, NIPS 2013]. We further extend our algorithm to the stochastic reward setting and obtain similar results.

研究の動機と目的

決定的MDPにおける関数近似を伴うアグノスティック設定下で、証明可能に効率的なQ学習アルゴリズムを設計するという未解決問題に取り組む。
多項式的サンプル複雑度を達成するための近似誤差δと最適性ギャップρの必要十分条件を特定する。
サンプル複雑度に対してtightな上界と下界を確立し、与えられた条件下でΘ(dim_E)が最適であることを示す。
類似の保証を維持したまま、確率的報酬設定へ分析を拡張する。

提案手法

アルゴリズムは、不確実性と近似誤差に基づいてアクションを選択するオラクルを用いて、段階的に状態-行動-価値タプルのデータセットYを構築する再帰的アプローチを採用する。
探索を促進するために最大不確実性オラクルを採用し、Q値推定における潜在的な誤差が大きいアクションが優先されるようにする。
観測済みの状態-行動-価値ペアの集合Yを維持し、F上での最小二乗回帰を用いてQ関数fをYから推定する。
推定値と真のQ値の乖離に基づいて探索ループの停止条件を定義し、最適Q値からρ/2以内の方策への収束を保証する。
関数クラスの複雑度を測る指標として、Eluder次元dim_E(F, ρ/4)を用い、これとサンプル複雑度を直接関連付ける。
理論的保証はMDPのホライズンレベルに対する帰納法を用いて導出され、推定Q関数fがすべての状態でQ*をρ/2以内に近似できることを証明し、最適方策の回復を可能にする。

実験結果

リサーチクエスチョン

RQ1決定的システムにおけるアグノスティックQ学習と関数近似が多項式的サンプル複雑度を達成できる最小の近似誤差δは何か？
RQ2決定的MDPにおけるアグノスティックQ学習と関数近似のサンプル複雑度O(dim_E)はtightか？
RQ3最適Q関数の正確な線形化可能性を仮定せずに、証明可能に効率的なアルゴリズムを設計できるか？
RQ4最適性ギャップρは、近似誤差δとEluder次元がサンプル複雑度に与える影響をどのように決定づけるか？
RQ5提案されたアルゴリズムは確率的報酬環境でもサンプル効率を維持するか？

主な発見

近似誤差δがO(ρ / √dim_E)のとき、アルゴリズムはO(dim_E)の軌道数で最適方策を発見し、tightなサンプル複雑度境界を確立する。
δ = O(ρ / √dim_E)は、多項式的サンプル複雑度を達成するための必要十分条件であり、先行研究からの一致する下界によって裏付けられる。
サンプル複雑度Θ(dim_E)は、アグノスティック設定下でもtightであり、Wenと Van Roy (2013) が提起した未解決問題を解決する。
ρ ≥ 6√2 δ √dim_E(F, ρ/4) の仮定のもとで、アルゴリズムはO(dim_E)のサンプル複雑度を達成し、最適と準最適なアクションの間の十分な分離を保証する。
分析は確率的報酬設定へも拡張可能であり、類似のサンプル複雑度と近似保証を維持する。
Eluder次元を複雑度測度として用いることで、近似誤差とサンプル効率のトレードオフを明確に特徴づけることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。