[论文解读] Bayesian Optimization for Policy Search in High-Dimensional Systems via Automatic Domain Selection
该论文提出了一种贝叶斯优化(BO)框架,用于高维策略搜索,通过利用学习到的动力学模型自动定义优化域,并通过线性嵌入降低有效维度。该方法引入了动态域自适应(DDA),在需要时扩展搜索空间,实现在48维四旋翼控制中样本高效的BO,收敛速度更快,性能优于基线方法。
Bayesian Optimization (BO) is an effective method for optimizing expensive-to-evaluate black-box functions with a wide range of applications for example in robotics, system design and parameter optimization. However, scaling BO to problems with large input dimensions (>10) remains an open challenge. In this paper, we propose to leverage results from optimal control to scale BO to higher dimensional control tasks and to reduce the need for manually selecting the optimization domain. The contributions of this paper are twofold: 1) We show how we can make use of a learned dynamics model in combination with a model-based controller to simplify the BO problem by focusing onto the most relevant regions of the optimization domain. 2) Based on (1) we present a method to find an embedding in parameter space that reduces the effective dimensionality of the optimization problem. To evaluate the effectiveness of the proposed approach, we present an experimental evaluation on real hardware, as well as simulated tasks including a 48-dimensional policy for a quadcopter.
研究动机与目标
- 解决贝叶斯优化(BO)在高维控制策略搜索中的可扩展性问题,其中标准BO因维度灾难而变得不可行。
- 通过利用学习到的动力学模型和基于模型的控制技术,自动确定优化边界,减少对人工域选择的依赖。
- 通过识别捕获目标函数有效结构的低维线性嵌入,提高样本效率。
- 通过在优化过程中引入动态域自适应(DDA),缓解因初始域过于受限导致的模型偏差。
- 实现在高维空间中的直接、无模型策略优化,同时利用模型洞察进行域和嵌入选择。
提出的方法
- 利用学习到的动力学模型推导出基于模型的控制器(如LQR),以指导优化的参数空间相关区域。
- 利用控制器的稳定区域自动定义初始域边界,消除人工调参。
- 应用主成分分析(PCA)识别捕获目标函数主要变化的低维线性子空间(嵌入)。
- 引入动态域自适应(DDA):若代理模型预测最优解接近边界,则在该方向扩展域,以避免过早收敛。
- 在降维后的域上执行无模型BO,使用高斯过程(GP)代理模型指导获取函数优化。
- 将域选择与嵌入技术结合安全探索策略,拒绝不安全策略,赋予其高成本以防止硬件损坏。
实验结果
研究问题
- RQ1能否利用学习到的动力学模型自动定义高维策略搜索中贝叶斯优化的参数域?
- RQ2如何在保持性能的前提下降低高维策略优化问题的有效维度?
- RQ3动态域自适应是否能提升基于BO的策略搜索的收敛性和最终性能?
- RQ4与标准BO和REMBO相比,所提方法是否能在高维控制任务中实现更优性能?
- RQ5该方法在多大程度上减少了对专家知识在域和嵌入选择方面的需求?
主要发现
- 所提方法在48维四旋翼控制任务中,仅用30次迭代即实现更快收敛,并持续优于名义LQR策略。
- 在PCA域上优化降低了有效搜索空间,收敛速度优于独立(随机)域。
- 动态域自适应(DDA)进一步加速了收敛,并使策略超越LQR基线,即使初始域过小亦可实现。
- 与有效维度为10和20的REMBO相比,采用PCA域和DDA的所提方法表现出显著更优性能,而REMBO使用随机嵌入时表现较差。
- 轨迹可视化证实,优化后的策略实现了更快的目标状态收敛和更小的俯仰角超调。
- 该方法成功实现了在真实硬件上的策略优化,满足安全约束,拒绝不安全策略并赋予其高成本,未造成系统损坏。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。