[论文解读] Using Parameterized Black-Box Priors to Scale Up Model-Based Policy Search for Robotics
该论文提出 Black-DROPS with GP-MI,一种基于模型的策略搜索算法,利用参数化的黑箱先验(特别是动力学模拟器)将数据高效强化学习扩展到高维机器人系统。通过结合高斯过程对模型不确定性进行建模与黑箱优化框架,该方法在48维状态空间和18维动作空间的六足机器人上,仅用不到30秒即实现了有效的策略学习,在完整和受损配置下均优于先前方法。
The most data-efficient algorithms for reinforcement learning in robotics are model-based policy search algorithms, which alternate between learning a dynamical model of the robot and optimizing a policy to maximize the expected return given the model and its uncertainties. Among the few proposed approaches, the recently introduced Black-DROPS algorithm exploits a black-box optimization algorithm to achieve both high data-efficiency and good computation times when several cores are used; nevertheless, like all model-based policy search approaches, Black-DROPS does not scale to high dimensional state/action spaces. In this paper, we introduce a new model learning procedure in Black-DROPS that leverages parameterized black-box priors to (1) scale up to high-dimensional systems, and (2) be robust to large inaccuracies of the prior information. We demonstrate the effectiveness of our approach with the "pendubot" swing-up task in simulation and with a physical hexapod robot (48D state space, 18D action space) that has to walk forward as fast as possible. The results show that our new algorithm is more data-efficient than previous model-based policy search algorithms (with and without priors) and that it can allow a physical 6-legged robot to learn new gaits in only 16 to 30 seconds of interaction time.
研究动机与目标
- 解决基于模型的策略搜索在高维机器人系统中的可扩展性问题,传统方法因维度灾难而失效。
- 通过整合来自动力学模拟器的先验知识,提升真实机器人学习中的数据效率和计算时间,且无需可微模型或结构约束。
- 在模型不准确和现实世界不确定性下实现稳健的策略学习,尤其在机器人受损或复杂构型下表现优异。
- 通过结合黑箱优化与灵活可调的先验,支持物理机器人快速适应,且先验可轻松替换或调整。
提出的方法
- 在 Black-DROPS 中引入一种新型模型学习流程,利用参数化的黑箱先验(如物理模拟器)在高维状态与动作空间中引导策略搜索。
- 采用高斯过程对模型不准确性的建模(GP-MI),以捕捉先验模型中的不确定性,从而在存在不准确的情况下仍能实现稳健的长期预测。
- 使用黑箱优化框架,将 GP 模型预测的状态链式传递回先验模拟器,以模拟长时域动力学。
- 应用纯黑箱、无导数的优化策略,可处理任意策略与奖励参数化形式,从而实现对策略空间的全面探索。
- 在学习过程中通过调整先验模型的参数来优化其性能,使算法能够适应先验模型与真实世界动力学之间的差异。
- 以数据高效、迭代的方式,将真实世界交互数据与先验模拟结果结合,以优化模型与策略。
实验结果
研究问题
- RQ1基于模型的策略搜索算法是否能仅使用黑箱先验,有效扩展到高维机器人系统(如48维状态、18维动作空间)?
- RQ2参数化黑箱先验的集成如何提升真实机器人学习中的数据效率与计算时间?
- RQ3当先验模型不准确或机器人受损时,该算法是否仍能保持性能与鲁棒性?
- RQ4与最先进的基于模型方法及贝叶斯优化方法相比,该方法在学习速度与最终策略性能方面表现如何?
主要发现
- 所提方法仅通过16至30秒的真实世界交互时间,即在一台物理六足机器人(48维状态,18维动作空间)上学习到了有效的行走策略。
- Black-DROPS with GP-MI 在完整六足机器人上实现了0.22 m/s的中位行走速度,在现实-模拟差距场景下优于 IT&E 及其他基线方法。
- 在移除后腿的损伤情况下,该方法在第8轮试验中即达到0.21 m/s的中位速度,显著优于 IT&E(仅达0.15 m/s)。
- 该算法表现出更强的鲁棒性,始终选择更安全的策略以避免跌倒,而 IT&E 频繁导致机器人倒塌。
- GP-MI 的使用实现了有效的不确定性建模,使算法即使在先验模拟器不准确时也能可靠学习。
- 该方法成功在灵活的黑箱框架中结合先验知识与真实世界数据,实现无需重训练或架构更改的快速适应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。