[論文レビュー] On Reward-Free Reinforcement Learning with Linear Function Approximation
本論文は線形関数近似を用いた報酬無し強化学習を分析し、線形MDPの下で多項式上界を証明し、線形Q*の下で指数下界を示し、モデルベースと値ベースの仮定の間に明示的な難易度の分離を示す。
Reward-free reinforcement learning (RL) is a framework which is suitable for both the batch RL setting and the setting where there are many reward functions of interest. During the exploration phase, an agent collects samples without using a pre-specified reward function. After the exploration phase, a reward function is given, and the agent uses samples collected during the exploration phase to compute a near-optimal policy. Jin et al. [2020] showed that in the tabular setting, the agent only needs to collect polynomial number of samples (in terms of the number states, the number of actions, and the planning horizon) for reward-free RL. However, in practice, the number of states and actions can be large, and thus function approximation schemes are required for generalization. In this work, we give both positive and negative results for reward-free RL with linear function approximation. We give an algorithm for reward-free RL in the linear Markov decision process setting where both the transition and the reward admit linear representations. The sample complexity of our algorithm is polynomial in the feature dimension and the planning horizon, and is completely independent of the number of states and actions. We further give an exponential lower bound for reward-free RL in the setting where only the optimal $Q$-function admits a linear representation. Our results imply several interesting exponential separations on the sample complexity of reward-free RL.
研究の動機と目的
- 報酬無しRLにおける線形関数近似で効率性が保証されるかを解明する。
- 2つのモデリング仮定:線形MDPと線形Q*の下でサンプル複雑性を特徴づける。
- 報酬近似を用いるRLの限界を理解するための hardness 結果を探る。
- モデルベースと値ベースの設定間の分離に関する洞察を提供する。
提案手法
- 探索中に d^3 H^6 / 8 B^2 trajectories を収集する線形MDPにおける報酬なしRLのアルゴリズムを提案する。
- 探索フェーズで探索駆動型の upper-confidence-bound (UCB) ボーナスを用いて探索報酬を構築する。
- 最小二乗値反復法(LSVI)を用いてQ関数を推定し、楽観的価値関数を導出する。
- プランニングフェーズでは、観測された遷移の均一な被覆と楽観的Q関数を用いたバッチRLを実行する。
- 集中化・楕円潜在定理を用いた楽観的計画の保証を証明する。
- 線形Q*の仮定の下で報酬なしRLの下限を示し、探索におけるサンプル複雑性が指数関係になることを示す。
実験結果
リサーチクエスチョン
- RQ1線形MDPの仮定の下で、線形関数近似を用いた報酬なしRLは効率的に解けるか。
- RQ2最適Q*のみが線形(線形Q*)である場合の報酬なしRLのサンプル複雑性はどうなるか、線形MDP設定とどう比較されるか。
- RQ3弱い仮定の下で hardness 結果は存在するか、モデルベースと値ベースの設定間に指数的分離は生じるか。
- RQ4シミュレータ(生成モデル)の有無は、報酬なしRLにおける標準RLモデルと比較してサンプル複雑性にどう影響するか。
- RQ5線形関数近似の下で、報酬なしRLと標準RLの概念的な分離はどう現れるか。
主な発見
- 線形MDPの下で、報酬なしRLは多項式探索複雑性を達成し、0x7F rom source: O(d^3 H^6 / ^2) trajectoriesを生み出し、探索的に得られた報酬関数に対して高確率で任意の報酬関数に対しての計画で最適化されたポリシーを得る。
- 探索駆動型の報酬関数 r_h^k は u_h^k / H として構築され、未知の状態-行動対へ訪問を奨励する。
- Q* のみが線形(線形Q*)である場合、いかなる報酬なしRLアルゴリズムも探索において指数個のサンプルを必要とし、ほぼ最適な計画を保証することは困難である(決定的MDPでも同様)。
- 線形Q*仮定の下で、報酬なしRLと標準RLの間に指数的な分離が存在する。標準RLは十分条件の下で多項式の計画を達成できる場合がある。
- シミュレータ(生成モデル)を用いた場合、線形Q*の下で多項式上界が成り、シミュレータ有無による指数的分離を示す。
- 結果は、同じ関数近似レジーム内で報酬なしRLが標準RLより指数的に困難になり得ること、そしてシミュレータがサンプル複雑性を大幅に低減し得ることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。