[論文レビュー] Local policy search with Bayesian optimization
本稿では、確率的ヤコビアンガウス過程モデルを用いて情報量の多いポリシー・パラメータを能動的に選択することで、ベイズ最適化と勾配ベースのポリシー最適化を統合する、新しいポリシー探索手法である勾配情報付きベイズ最適化(GIBO)を提案する。GIBOは、正確な事前知識が利用可能な場合に、ランダムサンプリングベースラインと比較して著しく高いサンプル効率と低い勾配推定の分散を達成する。
Reinforcement learning (RL) aims to find an optimal policy by interaction with an environment. Consequently, learning complex behavior requires a vast number of samples, which can be prohibitive in practice. Nevertheless, instead of systematically reasoning and actively choosing informative samples, policy gradients for local search are often obtained from random perturbations. These random samples yield high variance estimates and hence are sub-optimal in terms of sample complexity. Actively selecting informative samples is at the core of Bayesian optimization, which constructs a probabilistic surrogate of the objective from past samples to reason about informative subsequent ones. In this paper, we propose to join both worlds. We develop an algorithm utilizing a probabilistic model of the objective function and its gradient. Based on the model, the algorithm decides where to query a noisy zeroth-order oracle to improve the gradient estimates. The resulting algorithm is a novel type of policy search method, which we compare to existing black-box algorithms. The comparison reveals improved sample complexity and reduced variance in extensive empirical evaluations on synthetic objectives. Further, we highlight the benefits of active sampling on popular RL benchmarks.
研究の動機と目的
- 強化学習におけるポリシー勾配法の高いサンプル複雑性を緩和すること。
- ランダムな摂動に依存するのではなく、情報量の多いポリシー・パラメータを能動的に選択することで、勾配推定の精度を向上させること。
- ベイズ最適化の能動的サンプリング戦略を局所的ポリシー探索に統合し、より高いサンプル効率を達成すること。
- 目的関数とその勾配を微分可能ガウス過程事前分布を用いて同時にモデル化する手法を開発すること。
- 本手法を合成目的関数および標準的な強化学習ベンチマークで評価し、事前知識がある条件下での性能向上を示すこと。
提案手法
- GIBOは、目的関数とそのヤコビアン(勾配)をガウス過程(GP)でモデル化し、関数値と勾配の同時事後分布推論を可能にする。
- アルゴリズムは、勾配推定の不確実性を捉えるヤコビアンGPモデルを採用し、情報量の多いクエリ点の能動的選択を可能にする。
- クエリ点は、ヤコビアンの不確実性を最小化するように選ばれる獲得関数を用いて決定され、ベイズ最適化の原則に従う。
- 本手法はゼロ次オラクルへのアクセスに適しており、標準的なポリシー勾配フレームワークと互換性がある。
- 既知または学習されたGPの長さスケールを用いた勾配正規化により、性能向上と分散の低減が達成される。
- 勾配情報が利用可能な場合に自然に拡張可能であり、既存のポリシー最適化アルゴリズムとの統合が可能である。
実験結果
リサーチクエスチョン
- RQ1事前知識が利用可能な場合、ベイズ最適化による能動的サンプリングが、ポリシー探索におけるサンプル複雑性を低減できるか。
- RQ2GIBOの能動的サンプリング戦略は、ランダム摂動と比較して勾配の分散と収束速度にどのように影響するか。
- RQ3GIBOは、MuJoCo や OpenAI Gym 環境を含む標準的な強化学習ベンチマークで、どの程度性能を向上させるか。
- RQ4GIBOの性能は、モデルの誤設定や目的関数に関する誤った仮定に対してどの程度感受性を示すか。
- RQ5勾配正規化と状態正規化は、GIBOのサンプル効率と安定性にどのような影響を与えるか。
主な発見
- 300回の関数評価後、合成12次元、24次元、36次元の目的関数において、GIBOはランダムサンプリングベースラインと比較して顕著に低いレグレットを達成し、勾配正規化を適用することでレグレットが50%削減された。
- LQRベンチマークでは、GIBOは100回未満の評価で安定化制御器を発見し、ARS や LSPI よりもサンプル効率に優れた。
- Hopper-v1 などの MuJoCo タスクにおいて、GIBOは目標報酬閾値に到達するまでの速度と分散がARS よりも優れており、サンプル効率の向上が確認された。
- アブレーションスタディでは、GPハイパーパramータを学習中に推定しても、勾配正規化が平均性能の向上と分散の低減に寄与することが示された。
- Hopper-v1 において、状態正規化は良好なポリシーを学習するために不可欠であり、強化学習におけるGP回帰の入力前処理の重要性を強調している。
- 微分可能GP事前分布などのモデル仮定がわずかに満たされていなくても、GIBOは強い性能を維持しており、ややの誤設定に対してもロバストであることが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。