QUICK REVIEW

[论文解读] Bayesian Optimization with Automatic Prior Selection for Data-Efficient Direct Policy Search

Rémi Pautrat, Konstantinos Chatzilygeroudis|arXiv (Cornell University)|Sep 20, 2017

Machine Learning and Algorithms参考文献 43被引用 33

一句话总结

该论文提出了一种最可能期望改进（MLEI）贝叶斯优化获取函数，该函数通过似然性和期望改进自动从多个候选先验中选择最相关的先验。MLEI通过动态利用先验（如来自仿真或先前任务的先验）实现在机器人领域的数据高效直接策略搜索，即使当前任务情境（如损伤或地形）与任何先验不完全匹配，其性能也优于使用单一先验的标准期望改进方法，且在仿真和真实机器人实验中均表现出色。

ABSTRACT

One of the most interesting features of Bayesian optimization for direct policy search is that it can leverage priors (e.g., from simulation or from previous tasks) to accelerate learning on a robot. In this paper, we are interested in situations for which several priors exist but we do not know in advance which one fits best the current situation. We tackle this problem by introducing a novel acquisition function, called Most Likely Expected Improvement (MLEI), that combines the likelihood of the priors and the expected improvement. We evaluate this new acquisition function on a transfer learning task for a 5-DOF planar arm and on a possibly damaged, 6-legged robot that has to learn to walk on flat ground and on stairs, with priors corresponding to different stairs and different kinds of damages. Our results show that MLEI effectively identifies and exploits the priors, even when there is no obvious match between the current situations and the priors.

研究动机与目标

解决在当前任务情境未知或不匹配时，从多个候选先验中选择最合适先验的挑战。
通过在不预先假设先验正确性的前提下整合先验知识，提升机器人直接策略搜索的数据效率。
使贝叶斯优化能够在学习过程中动态识别并利用最相关的先验，即使没有任何先验与当前情况完全匹配。
证明自动先验选择能够增强对未知损伤和新环境的适应能力，且在仿真和真实机器人系统中均有效。

提出的方法

提出一种新颖的获取函数——最可能期望改进（MLEI），该函数将期望改进与每个先验模型的似然性相结合。
使用具有非恒定均值函数的高斯过程建模奖励函数，其中均值函数编码来自仿真或先前任务的先验知识。
基于观测数据计算每个先验模型的似然性，以评估其在当前情境下的合理性。
通过平衡期望改进和先验模型似然性来选择下一个评估点，实现在优化过程中动态选择先验。
采用先验模型的混合，每个模型代表一种不同的情境（如完整机器人、受损腿部、不同地形），并根据观测到的奖励更新其权重。
采用贝叶斯优化方法，对多个先验建立联合模型，以实现迁移学习并增强对未见条件的鲁棒适应能力。

实验结果

研究问题

RQ1当真实情境未知时，贝叶斯优化能否有效从多个候选先验中选择最相关的先验？
RQ2与使用单一固定先验的标准期望改进相比，MLEI通过自动先验选择在样本效率和性能方面表现如何？
RQ3当实际损伤或地形条件不在可用先验中时，MLEI能否实现有效的策略学习？
RQ4MLEI在多大程度上能利用多个先验发现受损或新环境中的补偿性行为？

主要发现

MLEI在仿真和真实机器人实验中均优于使用单一先验的标准期望改进方法，尤其当真实情境不在先验中时表现更优。
在具有未知损伤的六足机器人上，MLEI在少于10轮实验内即找到了高性能步态，即使没有任何先验匹配实际损伤。
当实际楼梯不在先验中时，MLEI仍优于基线方法，证明其在未见地形上的泛化能力。
当机器人受损时，MLEI在性能上优于使用完整机器人先验的期望改进方法，即使损伤未在先验中，表明其具备有效的迁移学习能力。
在物理实验中，MLEI在10轮迭代内于平坦地面上发现了有效的补偿性步态，5次重复实验均显示出一致的性能提升。
该方法成功利用先验实现了损伤适应和地形泛化，证实其在真实机器人应用中的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。