QUICK REVIEW

[论文解读] Epsilon-BMC: A Bayesian Ensemble Approach to Epsilon-Greedy Exploration in Model-Free Reinforcement Learning

Michael Gimelfarb, Scott Sanner|arXiv (Cornell University)|Jul 2, 2020

Reinforcement Learning in Robotics参考文献 18被引用 11

一句话总结

该论文提出ε-BMC，一种贝叶斯集成方法，通过贝叶斯模型组合自适应调整ε-贪心强化学习中的探索参数ε。通过将ε建模为β分布的随机变量，并基于回报方差进行闭式贝叶斯推断更新，ε-BMC实现了单调收敛，并在表格型和深度强化学习环境中优于固定退火调度和数据自适应基线方法。

ABSTRACT

Resolving the exploration-exploitation trade-off remains a fundamental problem in the design and implementation of reinforcement learning (RL) algorithms. In this paper, we focus on model-free RL using the epsilon-greedy exploration policy, which despite its simplicity, remains one of the most frequently used forms of exploration. However, a key limitation of this policy is the specification of $\varepsilon$. In this paper, we provide a novel Bayesian perspective of $\varepsilon$ as a measure of the uniformity of the Q-value function. We introduce a closed-form Bayesian model update based on Bayesian model combination (BMC), based on this new perspective, which allows us to adapt $\varepsilon$ using experiences from the environment in constant time with monotone convergence guarantees. We demonstrate that our proposed algorithm, $\varepsilon$- exttt{BMC}, efficiently balances exploration and exploitation on different problems, performing comparably or outperforming the best tuned fixed annealing schedules and an alternative data-dependent $\varepsilon$ adaptation scheme proposed in the literature.

研究动机与目标

解决ε-贪心探索中持续存在的超参数敏感性问题，其中性能在很大程度上取决于ε的选择。
开发一种基于数据的、原则性的方法，动态调整训练过程中的ε，避免手动调参或启发式调度。
提供一种理论基础坚实、鲁棒且高效的ε自适应算法，利用回报方差和Q值不确定性的贝叶斯推断。
在多种环境中展示泛化能力，包括离散和连续控制任务，使用表格型和深度强化学习方法。
在较弱假设下建立自适应ε更新机制的收敛性保证，确保学习动态的稳定性。

提出的方法

将期望SARSA重构成两个模型的贝叶斯混合：贪婪Q学习Bootstrap模型和均匀动作选择模型，从而为ε提供一种基于Q值一致性的原则性解释。
使用Gamma-Gaussian共轭先验对回报的逆方差（τ）进行建模，实现Q值不确定性的闭式后验更新。
使用β分布对ε进行建模，其先验超参数通过基于观测回报统计的贝叶斯模型组合（BMC）进行更新。
通过矩匹配近似推导出ε的闭式更新规则，实现在每个经验转换上常数时间的更新。
将贝叶斯ε更新集成到SARSA、Q学习和DQN等标准无模型强化学习算法中，保持与现有框架的兼容性。
通过证明在回报过程满足弱正则性条件下，ε后验的单调改进，确保理论上的收敛性。

实验结果

研究问题

RQ1是否可以使用完全贝叶斯框架来原则性地解释和自适应调整ε-贪心探索参数ε？
RQ2基于回报方差的数据驱动贝叶斯更新是否能比固定或退火调度带来更好的探索-利用平衡？
RQ3在不同强化学习算法和环境中，ε-BMC与最先进自适应探索方法（如VDBE）相比表现如何？
RQ4ε-BMC对先验设定的鲁棒性如何，特别是对ε的先验强度（α₀, β₀）？与启发式替代方法相比表现如何？
RQ5所提出的贝叶斯ε自适应方法是否可泛化至表格型和深度强化学习设置，而无需重新调参？

主要发现

在Cart-Pole和供应链环境中，ε-BMC均优于所有固定退火调度（如几何衰减、幂律衰减），实现了更高的平均回报和更快的收敛速度。
在使用DQN的Cart-Pole领域中，ε-BMC在500个episode后实现了平均回报15.0，超过了最佳固定ε（0.5）和所有退火调度。
在使用表格型SARSA的供应链领域中，ε-BMC在1000个episode后实现了平均回报13.0，显著优于VDBE（σ = 100）和所有固定ε值。
ε-BMC对µ和τ（回报的均值和逆方差）的先验超参数表现出鲁棒性，在使用相同初始设置的实验中表现一致。
该算法对ε先验强度（α₀, β₀）的敏感性较低，可通过单个有效参数进行调优，相比多参数调度更简化部署。
ε-BMC在ε估计中实现了单调收敛，具有理论保证支持稳定的学习动态，而像VDBE这样的启发式方法则表现出噪声较大的适应过程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。