QUICK REVIEW

[论文解读] Learning Linear-Quadratic Regulators Efficiently with only $\sqrt{T}$ Regret

Alon Cohen, Tomer Koren|arXiv (Cornell University)|Feb 17, 2019

Advanced Bandit Algorithms Research参考文献 27被引用 20

一句话总结

该论文提出了首个在计算上高效的线性二次调节器（LQR）学习算法，实现 $\tilde{O}(\runtime)$ 的遗憾，解决了长期存在的开放性问题。通过将LQR问题重新表述为一系列凸半定规划（SDP），该算法采用乐观策略更新机制，随时间推移逐步收紧，实现探索与利用之间的平衡，从而在多项式时间内达到近似最优的遗憾。

ABSTRACT

We present the first computationally-efficient algorithm with $\widetilde O(\sqrt{T})$ regret for learning in Linear Quadratic Control systems with unknown dynamics. By that, we resolve an open question of Abbasi-Yadkori and Szepesvári (2011) and Dean, Mania, Matni, Recht, and Tu (2018).

研究动机与目标

解决在计算高效算法下实现 $\tilde{O}(\runtime)$ 遗憾的LQR控制开放性问题。
设计一种学习算法，在未知LQR系统中平衡探索与利用，且不产生指数级计算成本。
提供一种多项式时间算法，其统计遗憾界与先前工作一致，同时具备实际可实施性。
建立一种框架，使得无限时域LQR问题的半定松弛可随着数据积累而逐步提高近似精度。
将“面对不确定性时的乐观性”原则扩展至具有可证明效率与遗憾界保证的连续状态LQR系统。

提出的方法

将无限时域LQR问题重新表述为凸半定规划（SDP），以实现高效优化。
使用一系列SDP松弛生成‘乐观’策略，基于当前估计假设有利的系统动态。
利用最小二乘估计和高概率浓度不等式，维护对未知系统参数的置信集。
应用Hanson-Wright不等式和 $\rho$-网论证，控制状态和动作范数的尾部行为。
利用迹和算子范数不等式，界定系统动态矩阵 $(A_0, B_0)$ 的估计误差。
利用信息矩阵 $V$ 的结构，推导其逆范数界，确保随时间推移的参数估计精度。

实验结果

研究问题

RQ1是否存在一种计算高效的算法，可在未知动态的LQR控制中实现 $\tilde{O}(\runtime)$ 遗憾？
RQ2是否能够利用凸优化在连续LQR系统中保持面对不确定性的乐观性？
RQ3如何利用半定规划近似无限时域LQR代价函数，同时确保收敛性？
RQ4样本量 $T_0$ 与在噪声存在下估计系统参数的准确性之间有何关系？
RQ5该算法是否能在不依赖每一步非凸优化的前提下，实现探索与利用的平衡？

主要发现

所提出的算法在未知动态的LQR控制中实现了 $\tilde{O}(\runtime)$ 遗憾，与统计下界相比仅差对数因子。
该算法每轮迭代均以多项式时间运行，解决了先前 $O(\runtime)$-遗憾方法的计算低效问题。
由于信息矩阵 $V$ 的增长，系统参数的估计误差以高概率衰减至 $O(1/\runtime)$。
信息矩阵 $V$ 的最小特征值下界为 $\Omega(T_0 \sigma^2)$，确保其可逆性与稳定学习。
以高概率，估计误差矩阵的迹被限制在 $O(n^2 \sigma^2 \log(T_0 / \delta))$ 以内，其中 $n$ 为状态-动作维度。
该算法确保策略在整个学习过程中保持稳定且代价有界，即使在初始不确定性下亦然。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。