[論文レビュー] Model-free Reinforcement Learning in Infinite-horizon Average-reward Markov Decision Processes
本稿では、無限時間平均報酬マルコフ決定過程(MDP)に対する、二つの新しいモデルフリー強化学習アルゴリズムを提示する。最初の手法であるオプティミスティックQ学習は、Q値推定を安定化させるために割引率を導入することで、弱く連結されたMDPにおいて$Ó(T^{2/3})$のリグレットを達成する。第二の手法、MDP-OOMDは、より強い定常的(エルゴード的)な仮定の下で、適応的バンドイット技術を用いることでリグレットを$Ó(√{T})$まで改善し、先行するモデルフリー手法を上回る性能を発揮する。
Model-free reinforcement learning is known to be memory and computation efficient and more amendable to large scale problems. In this paper, two model-free algorithms are introduced for learning infinite-horizon average-reward Markov Decision Processes (MDPs). The first algorithm reduces the problem to the discounted-reward version and achieves $\mathcal{O}(T^{2/3})$ regret after $T$ steps, under the minimal assumption of weakly communicating MDPs. To our knowledge, this is the first model-free algorithm for general MDPs in this setting. The second algorithm makes use of recent advances in adaptive algorithms for adversarial multi-armed bandits and improves the regret to $\mathcal{O}(\sqrt{T})$, albeit with a stronger ergodic assumption. This result significantly improves over the $\mathcal{O}(T^{3/4})$ regret achieved by the only existing model-free algorithm by Abbasi-Yadkori et al. (2019a) for ergodic MDPs in the infinite-horizon average-reward setting.
研究の動機と目的
- 無限時間平均報酬MDPにおけるモデルフリー強化学習のギャップを埋めること。ここでは、先行手法が低いリグレット境界を欠いていた。
- モデル推定を避けることで、スケーラビリティを高めるメモリおよび計算効率の良いアルゴリズムを設計すること。
- モデルベースの仮定に依存せずに、弱く連結されたおよびエルゴード的MDPにおいて非線形リグレットを達成すること。
- 平均報酬設定におけるQ値の安定性と無限大に発散する可能性の課題を克服すること。
- 割引または有限時間設定に限定されない一般MDPへ、モデルフリー手法の適用範囲を拡張すること。
提案手法
- オプティミスティックQ学習を導入し、時間に依存する割引率を用いて平均報酬MDPを割引MDPに再定式化することで、Q値学習の安定化を図る。
- Q値に対する上位信頼区間を用いたオプティミスティック探索を採用し、探索と活用のバランスを取る。
- 平均報酬設定に適応したUCBアルゴリズムの変種を用いて、リグレットの増大を制御する。
- 適応的学習率スケジューリングと分散低減技術を適用し、非定常的環境における収束性を向上させる。
- MDP-OOMDでは、最近の敵対的マルチアームバンディットにおける適応的リグレット最小化の進展を活用し、よりタイトな境界を達成する。
- 混合時間に基づく探索スケジューリングを用いた二段階の学習プロセス(探索と活用の段階)を採用する。
実験結果
リサーチクエスチョン
- RQ1最小限の仮定の下で、モデルフリー強化学習が無限時間平均報酬MDPにおいて非線形リグレットを達成できるか?
- RQ2平均報酬MDPにおいて、値が無限大に発散する可能性がある中で、Q値推定をどのように安定化できるか?
- RQ3適応的バンドイット技術は、エルゴード的MDPにおいて、先行するモデルフリー手法と比較してリグレット境界を改善できるか?
- RQ4モデルベース推定を用いずに、弱く連結されたMDPにおいて$\widetilde{\mathcal{O}}(T^{2/3})$のリグレットを達成できるか?
- RQ5リグレットとメモリ効率の観点から、モデルフリーアルゴリズムはモデルベースのベースラインと比較してどの程度の性能を示すか?
主な発見
- オプティミスティックQ学習は、弱く連結されたMDPにおいて$\widetilde{\mathcal{O}}(T^{2/3})$のリグレットを達成し、この設定におけるモデルフリー手法で初めての結果である。
- MDP-OOMDは、エルゴード的仮定の下で$\widetilde{\mathcal{O}}(\sqrt{T})$のリグレットを達成し、Abbas-Yadkoriら(2019a)の$\mathcal{O}(T^{3/4})$の境界を上回る。
- 提案手法は、$\epsilon$-グリーディ探索を用いた標準的Q学習を上回り、実験では線形リグレットを示した。
- 混合性が悪い環境(例:JumpRiverSwim)では、理論的境界が劣っているにもかかわらず、オプティミスティックQ学習がMDP-OOMDおよびPolitexを上回る性能を発揮した。
- 実験的結果から、両手法とも非線形リグレットを達成しており、実際のMDPにおける理論的保証の妥当性が裏付けられた。
- アルゴリズムはメモリ効率が高く、スケーラブルであり、大規模な平均報酬設定におけるモデルフリーRLの実現可能性を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。