QUICK REVIEW

[论文解读] Event-triggered Learning for Linear Quadratic Control

Henning Schlüter, Friedrich Solowjow|arXiv (Cornell University)|Oct 17, 2019

Fault Detection and Control Systems参考文献 62被引用 23

一句话总结

本文提出了一种用于线性二次型调节器（LQR）控制的事件触发学习框架，通过监测经验成本分布与基于切尔诺夫不等式推导出的模型预测置信区间的偏差，自动检测模型不准确性。该方法仅在出现统计显著性不匹配时触发模型重估，从而在硬件实验中将控制成本降低高达50%，同时避免了不必要的学习，并能稳健处理过程噪声。

ABSTRACT

When models are inaccurate, the performance of model-based control will degrade. For linear quadratic control, an event-triggered learning framework is proposed that automatically detects inaccurate models and triggers the learning of a new process model when needed. This is achieved by analyzing the probability distribution of the linear quadratic cost and designing a learning trigger that leverages Chernoff bounds. In particular, whenever empirically observed cost signals are located outside the derived confidence intervals, we can provably guarantee that this is with high probability due to a model mismatch. With the aid of numerical and hardware experiments, we demonstrate that the proposed bounds are tight and that the event-triggered learning algorithm effectively distinguishes between inaccurate models and probabilistic effects such as process noise. Thus, a structured approach is obtained that decides when model learning is beneficial.

研究动机与目标

为解决由于系统模型不准确导致的基于模型的LQR控制性能下降问题。
开发一种基于原则、数据驱动的方法，以决定何时启动模型学习，避免持续或时机不当的更新。
利用LQR成本的统计置信区间，区分模型不匹配与过程噪声等随机效应。
通过仅在性能显著偏离模型预测时触发学习，实现实时自适应控制。
将最优控制理论与统计学习相结合，在保持控制器稳定性的同时降低资源消耗。

提出的方法

推导LQR成本的矩生成函数（MGF），以在模型假设下表征其完整概率分布。
利用切尔诺夫不等式，基于MGF计算包含预设概率质量的置信区间。
设计一种学习触发机制，当实际观测到的成本落在这些置信区间之外时被激活。
引入滞后机制（最低10秒的违规持续时间），以减少瞬态扰动引起的误报。
在离线学习阶段，通过激励信号使用预测误差最小化方法执行模型重估。
利用新学习到的模型和噪声协方差估计值，更新控制器和触发阈值。

实验结果

研究问题

RQ1能否从模型的矩生成函数推导出LQR成本的统计置信区间，以检测模型不匹配？
RQ2切尔诺夫不等式能否有效用于设计一种学习触发机制，以区分模型误差与过程噪声？
RQ3事件触发学习框架是否能在实际中降低控制成本，同时最小化不必要的学习？
RQ4该触发机制对真实硬件中的短期扰动和非平稳性有多强的鲁棒性？
RQ5该方法能否检测并适应系统动力学的突发变化，如增加质量或平衡点改变？

主要发现

基于切尔诺夫不等式的触发机制成功检测到初始设置中模型存在轻微错误，并在运行17.758秒后触发学习。
模型更新后，平均控制成本相比初始不准确模型降低了约50%。
当在374.272秒处向摆杆添加重量时，触发机制正确检测到动力学的新的变化，证实了对结构变化的鲁棒性。
该方法有效区分了模型不匹配与随机波动，表现为触发机制在瞬态成本下降期间未被激活。
硬件实现表明，该方法在存在非线性和时变接线效应的真实系统中仍具可行性。
采用10秒滞后条件显著提高了对短期扰动的检测鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。