QUICK REVIEW

[论文解读] Local policy search with Bayesian optimization

Sarah Müller, Alexander von Rohr|arXiv (Cornell University)|Jun 22, 2021

Advanced Multi-Objective Optimization Algorithms被引用 10

一句话总结

本文提出了一种新型策略搜索方法——基于贝叶斯优化的梯度信息（GIBO），通过使用概率雅可比高斯过程模型主动选择信息丰富的策略参数，将贝叶斯优化与基于梯度的策略优化相结合。与随机采样基线相比，GIBO在具备准确先验知识时显著提升了样本效率并降低了梯度估计的方差。

ABSTRACT

Reinforcement learning (RL) aims to find an optimal policy by interaction with an environment. Consequently, learning complex behavior requires a vast number of samples, which can be prohibitive in practice. Nevertheless, instead of systematically reasoning and actively choosing informative samples, policy gradients for local search are often obtained from random perturbations. These random samples yield high variance estimates and hence are sub-optimal in terms of sample complexity. Actively selecting informative samples is at the core of Bayesian optimization, which constructs a probabilistic surrogate of the objective from past samples to reason about informative subsequent ones. In this paper, we propose to join both worlds. We develop an algorithm utilizing a probabilistic model of the objective function and its gradient. Based on the model, the algorithm decides where to query a noisy zeroth-order oracle to improve the gradient estimates. The resulting algorithm is a novel type of policy search method, which we compare to existing black-box algorithms. The comparison reveals improved sample complexity and reduced variance in extensive empirical evaluations on synthetic objectives. Further, we highlight the benefits of active sampling on popular RL benchmarks.

研究动机与目标

解决强化学习中策略梯度方法的高样本复杂度问题。
通过主动选择信息丰富的策略参数而非依赖随机扰动，提升梯度估计的准确性。
将贝叶斯优化的主动采样策略整合到局部策略搜索中，以提升样本效率。
开发一种联合建模目标函数及其梯度的方法，使用可微高斯过程先验。
在合成目标函数和标准强化学习基准上评估该方法，验证其在先验知识存在下的性能提升。

提出的方法

GIBO 使用高斯过程（GP）对目标函数及其雅可比矩阵进行建模，实现对函数值和梯度的联合后验推断。
该算法采用雅可比高斯过程模型，捕捉梯度估计中的不确定性，从而实现对信息丰富查询点的主动选择。
通过基于不确定性最小化的采集函数选择查询点，遵循贝叶斯优化原则。
该方法设计为支持零阶 oracle 访问，因此与标准策略梯度框架兼容。
利用已知或学习到的 GP 长度尺度进行梯度归一化，可提升性能并减少方差。
当可用时，该方法可自然扩展以包含一阶梯度信息，从而实现与现有策略优化算法的集成。

实验结果

研究问题

RQ1当存在先验知识时，通过贝叶斯优化进行主动采样是否能降低策略搜索中的样本复杂度？
RQ2与随机扰动相比，GIBO 的主动采样策略在梯度方差和收敛速度方面表现如何？
RQ3GIBO 在 MuJoCo 和 OpenAI Gym 等标准强化学习基准上的性能提升程度如何？
RQ4当模型设定错误或对目标函数假设不准确时，GIBO 的性能对模型误设的敏感程度如何？
RQ5梯度归一化和状态归一化对 GIBO 的样本效率和稳定性有何影响？

主要发现

在 12、24 和 36 维的合成目标函数上，经过 300 次函数评估后，GIBO 的遗憾值显著低于随机采样基线，且在应用梯度归一化后遗憾值降低 50%。
在 LQR 基准上，GIBO 仅用少于 100 次评估就找到了稳定控制器，其样本效率优于 ARS 和 LSPI。
在 MuJoCo 任务如 Hopper-v1 中，GIBO 比 ARS 更快达到目标奖励阈值，且方差更低，表明其样本效率得到提升。
消融实验表明，即使在训练过程中学习 GP 超参数，梯度归一化也能提升平均性能并减少方差。
在 Hopper-v1 中，状态归一化对学习高性能策略至关重要，凸显了输入预处理在强化学习中 GP 回归的重要性。
即使模型假设（如可微高斯过程先验）仅近似满足，GIBO 仍能保持强性能，表明其对轻微误设具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。