QUICK REVIEW

[論文レビュー] Epsilon-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy Exploration in Model-Free Reinforcement Learning

Michael Gimelfarb, Scott Sanner|arXiv (Cornell University)|Jul 2, 2020

Reinforcement Learning in Robotics参考文献 18被引用数 11

ひとこと要約

本稿では、ベイジアンモデル結合を用いてε-greedy強化学習における探索パラメータεの適応的チューニングを可能にするε-BMCを提案する。εをベータ分布でモデル化し、報酬分散に対する閉形式のベイジアン推論により更新することで、ε-BMCは単調収束を達成し、固定のスケジュールやデータに適応するベースライン手法を、表形式およびディープ強化学習の両環境で上回る性能を発揮する。

ABSTRACT

Resolving the exploration-exploitation trade-off remains a fundamental problem in the design and implementation of reinforcement learning (RL) algorithms. In this paper, we focus on model-free RL using the epsilon-greedy exploration policy, which despite its simplicity, remains one of the most frequently used forms of exploration. However, a key limitation of this policy is the specification of $\varepsilon$. In this paper, we provide a novel Bayesian perspective of $\varepsilon$ as a measure of the uniformity of the Q-value function. We introduce a closed-form Bayesian model update based on Bayesian model combination (BMC), based on this new perspective, which allows us to adapt $\varepsilon$ using experiences from the environment in constant time with monotone convergence guarantees. We demonstrate that our proposed algorithm, $\varepsilon$- exttt{BMC}, efficiently balances exploration and exploitation on different problems, performing comparably or outperforming the best tuned fixed annealing schedules and an alternative data-dependent $\varepsilon$ adaptation scheme proposed in the literature.

研究の動機と目的

εの選択に強く依存する性能という、ε-greedy探索におけるハイパーパramータ感受性という持続的課題に対処すること。
手動によるチューニングやヒューリスティックなスケジュールを回避する、原理的かつデータ駆動のεの動的適応手法を開発すること。
報酬分散とQ値の不確実性に基づくベイジアン推論を活用し、理論的根拠に基づいた、強固で効率的なε適応アルゴリズムを提供すること。
離散的および連続的制御タスクを含む多様な環境において、表形式およびディープ強化学習の両方で一般化を示すこと。
報酬過程にやや弱い正則性条件が課せられる条件下で、εの適応的更新機構に対する収束保証を確立すること。

提案手法

期待SARSAを、グリーディQ学習のブートストラップモデルと一様な行動選択モデルのベイジアン混合として再定式化することで、εをQ値の一様性の指標として原理的解釈可能にする。
報酬の逆分散（τ）をガンマ-ノイズ分布の共役事前分布でモデル化し、Q値の不確実性に対する閉形式の事後更新を可能にする。
εをベータ分布でモデル化し、観測された報酬統計に基づくベイジアンモデル結合（BMC）により、ハイパーパramータを更新する。
モーメントマッチング近似を用いてεの閉形式更新ルールを導出することで、各経験遷移に対して定数時間の更新を実現する。
SARSA、Q学習、DQNといった標準的なモデルフリー強化学習アルゴリズムに、ベイジアンε更新を統合し、既存のフレームワークとの互換性を維持する。
報酬過程にやや弱い正則性条件が課せられる条件下で、εの事後分布に対する単調な改善を証明することで、理論的収束を保証する。

実験結果

リサーチクエスチョン

RQ1完全なベイジアンフレームワークを用いて、ε-greedy探索パラメータεの原理的解釈と適応的チューニングが可能か？
RQ2報酬分散に基づくデータ駆動型ベイジアン更新は、固定またはスケジュールされたεの選択に比べ、より優れた探索と活用のバランスを実現するか？
RQ3異なる強化学習アルゴリズムと環境において、ε-BMCはVDBEなどの最先端の適応的探索手法と比べてどのように性能を発揮するか？
RQ4特にεの事前分布の強度（α₀, β₀）に対して、ε-BMCはどの程度ロバストか。また、ヒューリスティックな代替手法と比較してどうか？
RQ5提案されたベイジアンε適応は、チューニングなしに表形式およびディープ強化学習の両設定に一般化可能か？

主な発見

ε-BMCは、Cart-Poleおよびサプライチェーン環境の両方で、固定のスケジュール（例：幾何的減少、べき乗減衰）をすべて上回り、平均報酬が高く、収束も速い。
DQNを用いたCart-Pole環境では、ε-BMCが500エピソードで平均報酬15.0を達成し、最良の固定ε（0.5）とすべてのスケジュールを上回った。
表形式SARSAを用いたサプライチェーン環境では、ε-BMCが1000エピソード後に平均報酬13.0を達成し、σ = 100のVDBEおよびすべての固定ε値を著しく上回った。
µ（報酬の平均）およびτ（報酬の逆分散）の事前分布に対して、ε-BMCは一貫した性能を示し、同じ初期設定で実験を繰り返しても安定した結果を示した。
εの事前分布の強度（α₀, β₀）に対して、ε-BMCは感受性が低く、単一の有効パラメータに簡略化可能であり、複数のパラメータを必要とするスケジュールよりも導入が容易だった。
εの推定において、ε-BMCは単調収束を達成し、理論的保証により安定した学習ダイナミクスを有するが、VDBEのようなヒューリスティック手法とは異なり、ノイズの多い適応を示さない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。