QUICK REVIEW

[論文レビュー] Almost Optimal Model-Free Reinforcement Learning via Reference-Advantage Decomposition

Zihan Zhang, Yuan Zhou|arXiv (Cornell University)|Apr 21, 2020

Reinforcement Learning in Robotics参考文献 26被引用数 45

ひとこと要約

論文は参照-利得分解を用いたモデルフ RL アルゴリズム UCB-Advantage を導入し、有限ホライズンのエピソード付き MDP においてほぼ最適な後悔を達成し、切替コストが低く、モデルベース手法と対数因子の範囲で一致する。

ABSTRACT

We study the reinforcement learning problem in the setting of finite-horizon episodic Markov Decision Processes (MDPs) with $S$ states, $A$ actions, and episode length $H$. We propose a model-free algorithm UCB-Advantage and prove that it achieves $\tilde{O}(\sqrt{H^2SAT})$ regret where $T = KH$ and $K$ is the number of episodes to play. Our regret bound improves upon the results of [Jin et al., 2018] and matches the best known model-based algorithms as well as the information theoretic lower bound up to logarithmic factors. We also show that UCB-Advantage achieves low local switching cost and applies to concurrent reinforcement learning, improving upon the recent results of [Bai et al., 2019].

研究の動機と目的

モデルフ RL がモデルベース法と同程度の学習効率を、空間/時間複雑性を維持しつつ達成できるかという問いを動機付ける。
参照-利得分解を用いて後悔とデータ効率を改善する新規なモデルフリーアルゴリズム UCB-Advantage を提案する。
UCB-Advantage が後悔を最適なモデルベースの境界にほぼ一致させ、対数因子までに限り改善されることを示し、局所的な切換コストが低いことを示す。
バッチ処方や並列学習に実用利益を強調し、同時学習設定へのアプローチを拡張する。

提案手法

各状態-行動-全体的三重 (s,a,h) が指数的に成長する長さのステージでデータを蓄積する、ステージベースの更新フレームワークを導入する。
参照-利得分解 V* = Vref + (V* − Vref) を提案し、Q を二つの項で更新する： (i) すべてのサンプルで推定された参照ベースの項、(ii) 現在のステージのみのサンプルで推定された利得ベースの項。
利得ベースの更新規則を提供する： Q_h(s,a) ← P_s,a,h V_ref_{h+1} + P_s,a,h (V_{h+1} − V_ref_{h+1}) + r_h(s,a) + b（b は探索ボーナス）。
同様の標準的な更新規則を並列で採用し、二つの規則をステージベースのフレームワーク内で統合できるようにする。
固定された参照値関数 Vref を学習し、サンプル複雑性を有界に保ちながら学習中に段階的に改良する。
理論的保証を提示： (i) 後悔 Bound Regret(T) ≤ ~O(√(H^2 S A T)) を高確率で達成、(ii) 先行の手法と比較して局所的切換コストを O(S A H^2 log T) に改善、(iii) 同時学習を含むコルリリティとして近似最適なエピソード複雑度を示す。

実験結果

リサーチクエスチョン

RQ1有限ホライゾンのエピソードMDPにおいてモデルフ RL がモデルベース法と同等の後悔境界を達成できるか？
RQ2参照-利得分解はモデルフリーのQ学習において分散を減らしデータ効率を改善するか？
RQ3ステージベースの更新フレームワークは切換コストと同時学習の実用性にどのような影響を与えるか？
RQ4この設定におけるモデルフ方法の理論的限界（下界）は何で、どこまでモデルベース保証に近づけるか？

主な発見

UCB-Advantage は高確率で ~O(√(H^2 S A T)) の後悔境界を達成し、情報理論的下界に対して対数因子の範囲で一致する。
アルゴリズムは先行するモデルフリー法に対する √H のギャップを低減し、UCBVI や vUCQ のようなトップクラスのモデルベースアルゴリズムの性能と対数因子まで一致する。
ステージベースの更新フレームワークは局所的切換コストを O(S A H^2 log T) に低く抑え、先行研究を改善する。
同時学習への拡張により、~O(H^2 S A + H^3 S A / (ε^2 M)) 程度の同時エピソードでε-最適方針を提供し、下界も示してほぼ最適性を示す。
参照-利得分解により参照項すべてのサンプルを活用しつつ、より変動の大きい二項を最新のステージに限定することで分散を低減し、より厳密な後悔分析を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。