Skip to main content
QUICK REVIEW

[论文解读] Regret Bounds for Robust Adaptive Control of the Linear Quadratic Regulator

Sarah Dean, Horia Mania|arXiv (Cornell University)|May 23, 2018
Advanced Bandit Algorithms Research被引用 169
一句话总结

该论文提出了第一种多项式时间鲁棒自适应 LQR 算法,具备高概率子线性遗憾界(O~(T^{2/3}))和匹配下界,以及关于遗憾与参数估计之间联系的见解。

ABSTRACT

We consider adaptive control of the Linear Quadratic Regulator (LQR), where an unknown linear system is controlled subject to quadratic costs. Leveraging recent developments in the estimation of linear systems and in robust controller synthesis, we present the first provably polynomial time algorithm that provides high probability guarantees of sub-linear regret on this problem. We further study the interplay between regret minimization and parameter estimation by proving a lower bound on the expected regret in terms of the exploration schedule used by any algorithm. Finally, we conduct a numerical study comparing our robust adaptive algorithm to other methods from the adaptive LQR literature, and demonstrate the flexibility of our proposed method by extending it to a demand forecasting problem subject to state constraints.

研究动机与目标

  • 激发对未知 LTI 系统在二次代价下的自适应控制研究,并给出非渐近保证。
  • 开发一个鲁棒自适应控制算法,确保在任意时刻的稳定性和接近最优性。
  • 建立子线性遗憾保证和系统参数估计速率。
  • 探索遗憾最小化与参数估计之间的权衡。
  • 展示在经验表现上相对于 OFU 和 Thompson Sampling 方法的竞争力,并扩展到受约束的环境中。

提出的方法

  • 通过 System Level Synthesis (SLS) 将问题框架化,将控制设计表示为对系统响应(Φ_x, Φ_u)的仿射约束。
  • 使用基于 SDP 的鲁棒优化从估计的动力学 (Ã, B̂) 合成控制器,并提供鲁棒性保证。
  • 通过注入噪声并定期更新 (A*, B*) 的最小二乘估计,实施基于时期的探索方案。
  • 证明估计器以 Ŝ(T^{-1/3}) 的速率收敛,且遗憾以 Ŝ(T^{2/3}) 的速率在高概率下增长。
  • 推导出与之匹配的遗憾下界,表明该速率在对数因子之内是尖锐的。
  • 给出有限维 SDP 改写(通过 FIR 约束)以实现多项式时间计算。

实验结果

研究问题

  • RQ1在没有不可验证假设的情况下,是否可以在多项式时间内实现对自适应 LQR 的高概率子线性遗憾?
  • RQ2自适应控制器产生的遗憾与系统参数估计速率之间的基本联系是什么?
  • RQ3当真实动力学未知时,System Level Synthesis 如何实现鲁棒性性能?
  • RQ4在实践中,鲁棒自适应方法与基于 OFU/TS 的方法相比如何,尤其在状态约束下?
  • RQ5该框架能否扩展到具有已知结构的安全约束或干扰的环境?

主要发现

  • 提出的鲁棒自适应控制算法在高概率下实现遗憾 Õ(T^{2/3})。
  • 对 (A*, B*) 的系统参数估计收敛速率为 Õ(T^{-1/3})。
  • 证明了对期望遗憾的下界 Ω(T^{2/3}),表明该速率在对数因子之内是紧的。
  • 只要名义(估计)模型和扰动满足 SLS 推导的条件,控制策略对真实系统保持稳定。
  • 数值实验显示遗憾与 OFU/TS 基线相比具有竞争力,在真实系统上无穷-horizon 成本得到改善;并展示了在具状态约束下扩展到需求预测的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。