QUICK REVIEW

[論文レビュー] Fast active learning for pure exploration in reinforcement learning

Pierre Ménard, Omar Darwiche Domingues|Repositori digital de la UPF (Universitat Pompeu Fabra)|Jul 27, 2020

Reinforcement Learning in Robotics参考文献 28被引用数 29

ひとこと要約

本稿では、スパース報酬を伴うエピソード的マルコフ決定過程における最良方策同定のための新しいアルゴリズム、BPI-UCBVIを提案する。1/nの探索ボーナスと停止時刻の洗練された解析を活用することで、Õ(SAH³ log(1/δ)/ε²) の最適なサンプル複雑度を達成し、先行手法と比較してホライズンHおよび状態空間Sに不適切な依存関係を排除することで改善を図った。

ABSTRACT

Realistic environments often provide agents with very limited feedback. When the environment is initially unknown, the feedback, in the beginning, can be completely absent, and the agents may first choose to devote all their effort on exploring efficiently. The exploration remains a challenge while it has been addressed with many hand-tuned heuristics with different levels of generality on one side, and a few theoretically-backed exploration strategies on the other. Many of them are incarnated by intrinsic motivation and in particular explorations bonuses. A common rule of thumb for exploration bonuses is to use $1/\sqrt{n}$ bonus that is added to the empirical estimates of the reward, where $n$ is a number of times this particular state (or a state-action pair) was visited. We show that, surprisingly, for a pure-exploration objective of reward-free exploration, bonuses that scale with $1/n$ bring faster learning rates, improving the known upper bounds with respect to the dependence on the horizon $H$. Furthermore, we show that with an improved analysis of the stopping time, we can improve by a factor $H$ the sample complexity in the best-policy identification setting, which is another pure-exploration objective, where the environment provides rewards but the agent is not penalized for its behavior during the exploration phase.

研究の動機と目的

スパースまたは報酬フィードバックが存在しない状況における強化学習における効率的で純粋な探索の課題に対処すること。
ホライズンHおよび状態空間Sに不適切な依存関係を排除することで、最良方策同定（BPI）におけるサンプル複雑度を向上させること。
報酬フリーおよび最良方策同定の設定において、標準的な1/√nルールよりも1/nの探索ボーナスが優れていることを示すこと。
δ、S、A、εに最適な依存関係を達成する理論的根拠に基づいた、データに依存する方策選択メカニズムを提供すること。

提案手法

データに依存する方策選択ルールを備えたエピソード的UCBVIベースのアルゴリズム、BPI-UCBVIを提案する。
標準的な1/√nの代わりに1/nの探索ボーナスを導入し、純粋な探索設定における改善された学習レートを示す。
UCBVI型アルゴリズムにおける単純な後悔の新しい上界を採用し、停止時刻のよりタイトな解析を可能にする。
推定されたMDPにおける推定誤差を制御するために、KLダイバージェンスと分散バウンドの洗練された解析を用いる。
方策価値差の集中不等式を導出するために、KLダイバージェンスの変分表現を適用する。
τの増大を対数的および多項式的項の観点から制御するための新しい補助不等式（補題13）を導出する。これにより、よりタイトなサンプル複雑度バウンドが得られる。

実験結果

リサーチクエスチョン

RQ1純粋な探索強化学習設定において、1/nの探索ボーナスは1/√nを上回る性能を示せるか？
RQ2停止時刻のよりタイトな解析は、最良方策同定におけるサンプル複雑度の向上をもたらすか？
RQ3フォワードモデルアクセスがある場合、BPIにおけるホライズンHへの依存関係をH⁴からH³に削減できるか？
RQ4オракルアクセスなしで、フォワードモデルアクセスのみで、δ、S、A、εに最適な依存関係を達成できるか？
RQ5データに依存する方策選択ルールは、BPIにおいて一様なランダム選択を上回れるか？

主な発見

BPI-UCBVIは、DannとBrunskill（2015）の下界に従って、S、A、ε、δに関して最適なサンプル複雑度Õ(SAH³ log(1/δ)/ε²) を達成する。
先行手法と比較して、ホライズンHへの依存関係をH⁴からH³に改善し、サンプル複雑度においてHの要因の改善を達成した。
1/√nの代わりに1/nのボーナスを使用することで、報酬フリー探索および最良方策同定の両設定において、より速い学習レートとよりタイトな後悔バウンドが得られた。
UCBVI型アルゴリズムにおける単純な後悔の上界を提案することで、RF-UCRLに存在するS要因を排除し、状態空間サイズに最適な依存関係を達成した。
洗練されたKLダイバージェンス不等式を用いることで、停止時刻のよりタイトなバウンドが可能となり、δへの依存関係が改善された。
補助不等式（補題13）により、τの増大を対数的および多項式的項の観点からよりタイトに制御でき、最終的なサンプル複雑度バウンドの導出に不可欠な役割を果たした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。