Skip to main content
QUICK REVIEW

[论文解读] Learning Linear-Quadratic Regulators Efficiently with only $\sqrt{T}$ Regret

Alon Cohen, Tomer Koren|arXiv (Cornell University)|Feb 17, 2019
Advanced Bandit Algorithms Research参考文献 27被引用 20
一句话总结

该论文提出了首个在计算上高效的线性二次调节器(LQR)学习算法,实现 $\tilde{O}(\runtime)$ 的遗憾,解决了长期存在的开放性问题。通过将LQR问题重新表述为一系列凸半定规划(SDP),该算法采用乐观策略更新机制,随时间推移逐步收紧,实现探索与利用之间的平衡,从而在多项式时间内达到近似最优的遗憾。

ABSTRACT

We present the first computationally-efficient algorithm with $\widetilde O(\sqrt{T})$ regret for learning in Linear Quadratic Control systems with unknown dynamics. By that, we resolve an open question of Abbasi-Yadkori and Szepesvári (2011) and Dean, Mania, Matni, Recht, and Tu (2018).

研究动机与目标

  • 解决在计算高效算法下实现 $\tilde{O}(\runtime)$ 遗憾的LQR控制开放性问题。
  • 设计一种学习算法,在未知LQR系统中平衡探索与利用,且不产生指数级计算成本。
  • 提供一种多项式时间算法,其统计遗憾界与先前工作一致,同时具备实际可实施性。
  • 建立一种框架,使得无限时域LQR问题的半定松弛可随着数据积累而逐步提高近似精度。
  • 将“面对不确定性时的乐观性”原则扩展至具有可证明效率与遗憾界保证的连续状态LQR系统。

提出的方法

  • 将无限时域LQR问题重新表述为凸半定规划(SDP),以实现高效优化。
  • 使用一系列SDP松弛生成‘乐观’策略,基于当前估计假设有利的系统动态。
  • 利用最小二乘估计和高概率浓度不等式,维护对未知系统参数的置信集。
  • 应用Hanson-Wright不等式和 $\rho$-网论证,控制状态和动作范数的尾部行为。
  • 利用迹和算子范数不等式,界定系统动态矩阵 $(A_0, B_0)$ 的估计误差。
  • 利用信息矩阵 $V$ 的结构,推导其逆范数界,确保随时间推移的参数估计精度。

实验结果

研究问题

  • RQ1是否存在一种计算高效的算法,可在未知动态的LQR控制中实现 $\tilde{O}(\runtime)$ 遗憾?
  • RQ2是否能够利用凸优化在连续LQR系统中保持面对不确定性的乐观性?
  • RQ3如何利用半定规划近似无限时域LQR代价函数,同时确保收敛性?
  • RQ4样本量 $T_0$ 与在噪声存在下估计系统参数的准确性之间有何关系?
  • RQ5该算法是否能在不依赖每一步非凸优化的前提下,实现探索与利用的平衡?

主要发现

  • 所提出的算法在未知动态的LQR控制中实现了 $\tilde{O}(\runtime)$ 遗憾,与统计下界相比仅差对数因子。
  • 该算法每轮迭代均以多项式时间运行,解决了先前 $O(\runtime)$-遗憾方法的计算低效问题。
  • 由于信息矩阵 $V$ 的增长,系统参数的估计误差以高概率衰减至 $O(1/\runtime)$。
  • 信息矩阵 $V$ 的最小特征值下界为 $\Omega(T_0 \sigma^2)$,确保其可逆性与稳定学习。
  • 以高概率,估计误差矩阵的迹被限制在 $O(n^2 \sigma^2 \log(T_0 / \delta))$ 以内,其中 $n$ 为状态-动作维度。
  • 该算法确保策略在整个学习过程中保持稳定且代价有界,即使在初始不确定性下亦然。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。