QUICK REVIEW

[论文解读] Goal-Driven Dynamics Learning via Bayesian Optimization

Somil Bansal, Roberto Calandra|arXiv (Cornell University)|Mar 27, 2017

Gaussian Processes and Bayesian Inference参考文献 20被引用 33

一句话总结

该论文提出了一种基于贝叶斯优化的主动学习框架aDOBO，通过迭代优化局部线性动力学模型，以最大化真实机器人系统上的控制器性能。通过直接基于闭环性能反馈优化模型参数，aDOBO在四旋翼飞行器测试平台上经过45轮迭代后，控制器性能比基于完整非线性动力学的名义控制器提升了12%。

ABSTRACT

Real-world robots are becoming increasingly complex and commonly act in poorly understood environments where it is extremely challenging to model or learn their true dynamics. Therefore, it might be desirable to take a task-specific approach, wherein the focus is on explicitly learning the dynamics model which achieves the best control performance for the task at hand, rather than learning the true dynamics. In this work, we use Bayesian optimization in an active learning framework where a locally linear dynamics model is learned with the intent of maximizing the control performance, and used in conjunction with optimal control schemes to efficiently design a controller for a given task. This model is updated directly based on the performance observed in experiments on the physical system in an iterative manner until a desired performance is achieved. We demonstrate the efficacy of the proposed approach through simulations and real experiments on a quadrotor testbed.

研究动机与目标

为解决在缺乏准确动力学模型或难以推导出精确模型时控制复杂机器人系统的问题。
通过学习专为特定任务定制的动力学模型，而非追求全局最准确的模型，来提升控制性能。
通过最小化达到高性能控制器所需的物理实验次数，实现数据高效的在线学习。
克服传统系统辨识与控制器调优方法的局限性，这些方法常因建模不准确或缺乏真实世界反馈而失败。
开发一种直接利用真实系统反馈优化动力学模型以提升控制器性能的框架，而非依赖预测误差最小化。

提出的方法

该框架使用贝叶斯优化（BO）基于历史性能观测，迭代选择在物理系统上测试的下一组动力学模型参数。
采用低维向量θ参数化一个局部线性动力学模型，其中速度分量（v_x, v_y）的未知动力学被建模为滚转角和俯仰角及推力的线性函数。
每次实验后，使用当前动力学模型和特定任务的成本函数，通过线性二次调节器（LQR）重新计算控制器。
在真实系统上测量闭环控制器的性能（成本），并将其用作BO中的目标函数，以更新模型参数的后验分布。
BO的采集函数指导下一组θ的选择，平衡探索与利用，以高效定位最小化控制成本的模型。
该过程持续进行，直到达到期望的性能阈值或完成最大迭代次数。

实验结果

研究问题

RQ1能否直接从真实世界控制器性能反馈中学习动力学模型，使其性能优于基于理论或名义系统动力学推导出的模型？
RQ2贝叶斯优化在多大程度上可减少复杂机器人系统中实现高性能控制所需的物理实验次数？
RQ3通过性能反馈优化的特定任务动力学模型，在实际应用中与全局准确但可能不匹配的名义动力学模型相比表现如何？
RQ4所提出的框架能否处理标准系统辨识方法中因忽略未建模效应和系统非线性性而导致性能下降的问题？
RQ5在优化过程中查询潜在不稳定的控制配置时，该方法在安全性和可扩展性方面有何影响？

主要发现

经过45轮迭代，aDOBO学习到的控制器在Crazyflie四旋翼飞行器上比基于完整12维非线性动力学模型的名义控制器性能提升了12%。
名义控制器初始阶段表现优于学习到的控制器，但aDOBO在数轮迭代后即超越它，归因于其能有效考虑未建模的真实世界动力学。
该框架在完全不了解真实系统动力学的情况下，成功学习到了能最大化控制器性能的动力学模型。
该方法展现出数据高效性，仅通过在真实四旋翼系统上进行45次物理实验即实现了卓越的性能。
结果表明，相较于预测精度，直接优化控制器性能可带来更优的真实世界控制效果，即使真实动力学为非线性且部分未知。
该方法对建模误差具有鲁棒性，能够适应未建模效应（如气动干扰或传感器偏差）对真实机器人行为的影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。