[论文解读] Exploration versus exploitation in reinforcement learning: a stochastic control approach
该论文将连续时间强化学习中的探索与利用问题形式化为一个带熵正则化的随机控制问题,证明最优策略为高斯分布,其中均值控制利用,方差控制探索。在线性二次型设定下,它表明探索成本与熵权重成正比,与折扣率成反比,并展示了当探索减弱时收敛至经典LQ控制的结果。
We consider reinforcement learning (RL) in continuous time and study the problem of achieving the best trade-off between exploration of a black box environment and exploitation of current knowledge. We propose an entropy-regularized reward function involving the differential entropy of the distributions of actions, and motivate and devise an exploratory formulation for the feature dynamics that captures repetitive learning under exploration. The resulting optimization problem is a revitalization of the classical relaxed stochastic control. We carry out a complete analysis of the problem in the linear--quadratic (LQ) setting and deduce that the optimal feedback control distribution for balancing exploitation and exploration is Gaussian. This in turn interprets and justifies the widely adopted Gaussian exploration in RL, beyond its simplicity for sampling. Moreover, the exploitation and exploration are captured, respectively and mutual-exclusively, by the mean and variance of the Gaussian distribution. We also find that a more random environment contains more learning opportunities in the sense that less exploration is needed. We characterize the cost of exploration, which, for the LQ case, is shown to be proportional to the entropy regularization weight and inversely proportional to the discount rate. Finally, as the weight of exploration decays to zero, we prove the convergence of the solution of the entropy-regularized LQ problem to the one of the classical LQ problem.
研究动机与目标
- 通过随机控制理论,形式化连续时间强化学习中的探索-利用权衡问题。
- 通过熵正则化内生地将探索整合到优化目标中,超越临时的探索策略。
- 在线性二次型(LQ)设定下进行分析,推导显式解并刻画最优策略结构。
- 量化探索成本,并建立其与正则化权重和折扣率的依赖关系。
- 证明当探索权重趋近于零时,熵正则化解收敛至经典LQ解。
提出的方法
- 提出一种熵正则化的奖励函数,显式平衡探索(高熵)与利用(低熵)。
- 提出一种新颖的探索下特征动态建模方法,通过随机控制描述重复学习过程。
- 将问题重新解释为松弛的随机控制问题,从而能够分析动作分布。
- 求解带熵正则化的连续时间LQ问题,推导出显式的反馈控制律。
- 推导出最优控制分布为高斯分布,其均值与方差分别捕捉利用与探索。
- 通过状态过程的二阶矩的常微分方程(ODE)分析,研究长期行为与稳定性,分别针对正则化与经典控制。
实验结果
研究问题
- RQ1如何在连续时间下,正式且内生地将探索整合进强化学习的优化目标?
- RQ2在熵正则化下的线性二次型设定中,平衡探索与利用的最优策略结构是什么?
- RQ3探索成本如何随熵正则化权重与折扣率变化?
- RQ4环境随机性与所需探索努力之间存在何种关系?
- RQ5当探索减弱时,熵正则化解是否收敛至经典LQ解?
主要发现
- 用于平衡探索与利用的最优反馈控制分布为高斯分布,为强化学习中高斯策略的广泛应用提供了理论依据,而不仅出于采样便利性。
- 利用与探索分别由高斯分布的均值与方差独立捕获。
- 环境越随机,对探索的需求越低,因为其本身提供了更多学习机会。
- 在LQ情形下,探索成本与熵正则化权重成正比,与折扣率成反比。
- 当探索权重衰减至零时,熵正则化LQ问题的解收敛至经典LQ解。
- 通过状态过程的矩分析方法,建立了正则化与经典控制问题之间可容许性的等价性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。