QUICK REVIEW

[論文レビュー] Generalization and Exploration via Randomized Value Functions

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|Feb 4, 2014

Reinforcement Learning in Robotics参考文献 30被引用数 82

ひとこと要約

この論文では、$\epsilon$-greedy やボルツマン探索といった非効率な手法に依存せず、統計的に妥当な価値関数をサンプリングすることで、探索と一般化を向上させる強化学習アルゴリズムであるランダム化最小二乗価値反復（RLSVI）を導入する。RLSVI は、表計算設定において近似的に最適なレグレットバウンド $\tilde{O}(\sqrt{H^3SAT})$ を達成し、ベースライン手法と比較して顕著な計算上の利点を示している。

ABSTRACT

We propose randomized least-squares value iteration (RLSVI) -- a new reinforcement learning algorithm designed to explore and generalize efficiently via linearly parameterized value functions. We explain why versions of least-squares value iteration that use Boltzmann or epsilon-greedy exploration can be highly inefficient, and we present computational results that demonstrate dramatic efficiency gains enjoyed by RLSVI. Further, we establish an upper bound on the expected regret of RLSVI that demonstrates near-optimality in a tabula rasa learning context. More broadly, our results suggest that randomized value functions offer a promising approach to tackling a critical challenge in reinforcement learning: synthesizing efficient exploration and effective generalization.

研究の動機と目的

大規模な状態行動空間における効率的探索の課題に取り組むこと、特に価値関数の一般化が求められる状況を想定する。
価値ベース強化学習における伝統的な探索戦略（$\epsilon$-greedy やボルツマン探索）の非効率性を克服すること。
線形パラメータ化された価値関数を用いて一般化を実現しながらも、強力な探索特性を維持する、理論的に効率的なアルゴリズムを開発すること。
既知の下界と対数要因を除いて一致する理論的レグレットバウンドを確立し、近似的最適性を示すこと。

提案手法

RLSVI は、価値関数のランダムサンプリングを用いて探索を誘導する最小二乗価値反復を用いる。
アクションのばらつきを用いる手法とは異なり、統計的不確実性を反映する価値関数の事後分布からのサンプリングによって探索を行う。
アルゴリズムは線形パラメータ化された価値関数を維持し、収集した遷移データに対して最小二乗回帰を用いて更新を行う。
ベイズフレームワークを用いて価値関数を事後分布からサンプリングし、整合的な探索を可能にする。
有限ホライズン $H$ のエピソード的表計算 MDP を想定し、信頼区間に基づく更新ルールを用いる。
理論的分析では、レグレット分解とサンプルされた価値関数の期待的非最適性のバウンドを用いる。

実験結果

リサーチクエスチョン

RQ1価値ベース強化学習において、標準的な $\epsilon$-greedy やボルツマン探索と比較して、価値関数のランダムサンプリングがより効率的な探索をもたらすか？
RQ2RLSVI は線形関数近似を用いて理論的に効率的な学習を達成し、既知の下界と一致するか？
RQ3RLSVI の一般化性能は、アクションのばらつきを用いる通常の LSVI と比較して、サンプル効率の面で優れているか？
RQ4ランダム化された価値関数の使用により、効果的な一般化と効率的探索を同時に実現できるか？

主な発見

RLSVI は $\tilde{O}(\sqrt{H^3SAT})$ のレグレットバウンドを達成し、表計算強化学習における既知の最悪ケース下界と対数要因を除いて一致する。
計算結果から、RLSVI は $\epsilon$-greedy やボルツマン探索を用いた LSVI と比較して、サンプル効率において顕著に優れていることが示された。
RLSVI は、線形パラメータ化された価値関数による一般化を実現しながらも、表計算設定で理論的に効率的である最初の強化学習手法である。
理論的分析により、ランダム化された価値関数のサンプリングが、特に高次元または複雑な状態空間において、アクションのばらつきよりも優れた探索をもたらすことが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。