[論文レビュー] Exploration versus exploitation in reinforcement learning: a stochastic control approach
本稿では、エントロピー正則化を用いて連続時間強化学習における探索と活用を確率的制御問題として定式化し、最適方策が平均が活用を、分散が探索をそれぞれ支配するガウス分布であることを証明する。線形2次形式の設定において、探索コストが正則化重みに比例し、割引率に反比例することを確立し、探索が小さくなるにつれて古典的LQ制御に収束することを示す。
We consider reinforcement learning (RL) in continuous time and study the problem of achieving the best trade-off between exploration of a black box environment and exploitation of current knowledge. We propose an entropy-regularized reward function involving the differential entropy of the distributions of actions, and motivate and devise an exploratory formulation for the feature dynamics that captures repetitive learning under exploration. The resulting optimization problem is a revitalization of the classical relaxed stochastic control. We carry out a complete analysis of the problem in the linear--quadratic (LQ) setting and deduce that the optimal feedback control distribution for balancing exploitation and exploration is Gaussian. This in turn interprets and justifies the widely adopted Gaussian exploration in RL, beyond its simplicity for sampling. Moreover, the exploitation and exploration are captured, respectively and mutual-exclusively, by the mean and variance of the Gaussian distribution. We also find that a more random environment contains more learning opportunities in the sense that less exploration is needed. We characterize the cost of exploration, which, for the LQ case, is shown to be proportional to the entropy regularization weight and inversely proportional to the discount rate. Finally, as the weight of exploration decays to zero, we prove the convergence of the solution of the entropy-regularized LQ problem to the one of the classical LQ problem.
研究の動機と目的
- 連続時間強化学習における探索-活用トレードオフを確率的制御理論を用いて形式化すること。
- エントロピー正則化を介して探索を最適化目的に内生的に組み込むことにより、恣意的な探索戦略を越えること。
- 線形2次(LQ)設定を分析し、明示的解を導出し、最適方策構造を特徴づけること。
- 探索のコストを定量化し、正則化重みおよび割引率との依存関係を確立すること。
- 探索重みがゼロに近づくにつれて、エントロピー正則化された解が古典的LQ解に収束することを証明すること。
提案手法
- 探索(高エントロピー)と活用(低エントロピー)を明示的にバランスさせるエントロピー正則化報酬関数を提案する。
- 探索下での特徴ダイナミクスの新しい定式化を導入し、繰り返し学習を確率的制御でモデル化する。
- 問題を緩和された確率的制御問題として再解釈し、行動分布の分析を可能にする。
- エントロピー正則化付き連続時間LQ問題を解き、明示的なフィードバック制御則を導出する。
- 最適制御分布をガウス分布として導出し、平均と分散がそれぞれ活用と探索を独立に捉えることを示す。
- 状態プロセスの2次モーメントに対するODEを用いて、長期的挙動と安定性を古典的制御および正則化制御の両者で分析する。
実験結果
リサーチクエスチョン
- RQ1連続時間における強化学習最適化目的に、どのようにして形式的かつ内生的に探索を統合できるか?
- RQ2エントロピー正則化付き線形2次設定において、探索と活用をバランスさせる最適方策構造は何か?
- RQ3探索コストはエントロピー正則化重みおよび割引率にどのように依存するか?
- RQ4環境のランダムネスと必要な探索努力との関係は何か?
- RQ5探索重みが小さくなるにつれて、エントロピー正則化された解は古典的LQ解に収束するか?
主な発見
- 探索と活用をバランスさせる最適フィードバック制御分布はガウス分布である。これは、サンプリングの便宜を超えてRLで広く用いられる理由を裏付ける。
- 活用と探索は、それぞれガウス分布の平均と分散によって、互いに排他的に捉えられる。
- よりランダムな環境では、探索の必要性が低下する。これは、自然に多くの学習機会を提供するからである。
- LQケースにおける探索コストは、エントロピー正則化重みに比例し、割引率に反比例する。
- 探索重みがゼロに減少するにつれて、エントロピー正則化LQ問題の解は古典的LQ解に収束する。
- 状態プロセスのモーメントに基づくODE解析を通じて、正則化および古典的制御問題の許容性の等価性が確立された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。