[論文レビュー] Reward-Free Exploration for Reinforcement Learning
本稿では、報酬信号なしで最初にMDPを探索する報酬フリー強化学習フレームワークを導入する。この探索段階で得られた軌道を用いて、将来の任意の報酬関数に対して効率的な計画が可能になる。提案手法は、1回の探索フェーズで、あらゆる報酬関数に対して$\tilde{O}(S^2A\mathrm{poly}(H)/\epsilon^2)$の近似的に最適なサンプル複雑度を達成し、$\epsilon$-部分最適方策を求める。
Exploration is widely regarded as one of the most challenging aspects of reinforcement learning (RL), with many naive approaches succumbing to exponential sample complexity. To isolate the challenges of exploration, we propose a new "reward-free RL" framework. In the exploration phase, the agent first collects trajectories from an MDP $\mathcal{M}$ without a pre-specified reward function. After exploration, it is tasked with computing near-optimal policies under for $\mathcal{M}$ for a collection of given reward functions. This framework is particularly suitable when there are many reward functions of interest, or when the reward function is shaped by an external agent to elicit desired behavior. We give an efficient algorithm that conducts $ ilde{\mathcal{O}}(S^2A\mathrm{poly}(H)/ε^2)$ episodes of exploration and returns $ε$-suboptimal policies for an arbitrary number of reward functions. We achieve this by finding exploratory policies that visit each "significant" state with probability proportional to its maximum visitation probability under any possible policy. Moreover, our planning procedure can be instantiated by any black-box approximate planner, such as value iteration or natural policy gradient. We also give a nearly-matching $Ω(S^2AH^2/ε^2)$ lower bound, demonstrating the near-optimality of our algorithm in this setting.
研究の動機と目的
- 複数の報酬関数を最適化しなければならない際の強化学習におけるサンプル非効率性の課題に対処すること。
- 探索を報酬仕様から分離し、任意の報酬関数に対して事後的に計画可能にする。
- 探索中に1回のデータ収集で十分なデータセットを収集し、あらゆる報酬関数に対して計画が可能な、理論的に効率的なアルゴリズムを開発すること。
- 報酬フリー探索のサンプル複雑度の理論的限界を特定するための境界を確立すること。
- 任意のブラックボックス計画アルゴリズムをサポートするフレームワークを提供し、柔軟性と実用性を向上させること。
提案手法
- 報酬関数なしでMDP $\mathcal{M}$ からの軌道を収集する報酬フリー強化学習のパラダイムを提唱する。
- 任意の方策が得られる最大の訪問確率に比例するように、重要な状態が十分に訪問されるようにする探索アルゴリズムを設計する。
- 価値反復や自然方策勾配などのブラックボックス強化学習アルゴリズム(例:価値反復や自然方策勾配)をサブルーチンとして用い、探索的方策を生成する。
- あらゆる将来の報酬関数に対して$\epsilon$-部分最適方策を計算できるように、探索段階でデータセットを構築する。
- 内積解析の新規なアプローチを用いて、探索方策がすべての関連する状態行動ペアを十分に均等にカバーしていることを証明する。
- 標準的なバッチ強化学習ソルバーを用いて計画フェーズを実装し、既存のアルゴリズムとの互換性を保証する。
実験結果
リサーチクエスチョン
- RQ1複数の将来の報酬関数に対して追加のデータ収集なしに、効率的な計画が可能な1回の探索フェーズを設計できるか?
- RQ2表形式MDPにおける報酬フリー強化学習のための十分なカバレッジを達成するための根本的サンプル複雑度は何か?
- RQ3事前に指定された報酬関数を持つ通常の強化学習と比較して、報酬フリー探索のサンプル複雑度はどの程度か?
- RQ4探索と計画を分離しつつ、サンプル複雑度において近似的に最適性を達成できるか?
- RQ5報酬フリー探索設定におけるカバレッジ品質の理論的限界は何か?
主な発見
- 提案手法は、探索のサンプル複雑度として$\tilde{O}(S^2A\mathrm{poly}(H)/\epsilon^2)$を達成し、これはほぼ最適である。
- 報酬関数に関係なく、環境との追加の相互作用なしに、あらかじめ収集したデータセットのみで$\epsilon$-部分最適方策を計算可能であることを保証する。
- $\Omega(S^2AH^2/\epsilon^2)$のほぼ一致する下界が確立され、報酬フリー設定におけるサンプル複雑度が近似的に最適であることを示している。
- 探索フェーズは概念的に単純で、価値反復や自然方策勾配などの任意のブラックボックスプランナと互換性がある。
- このフレームワークは、報酬フリー探索における根本的なカバレッジのコストを明らかにする:報酬フリーのサンプル複雑度は、事前に報酬が指定された強化学習よりも$S$倍大きい。これは、万能的カバレッジの必要性によるものである。
- 解析により、探索方策が最小訪問確率を最大化することに注力することで、到達が難しい状態を含む環境においても、すべての重要な状態が十分に訪問されることを証明している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。