QUICK REVIEW
[论文解读] Learning Linear-Quadratic Regulators Efficiently with only $\sqrt{T}$ Regret
Alon Cohen, Tomer Koren|arXiv (Cornell University)|Feb 17, 2019
Advanced Bandit Algorithms Research参考文献 27被引用 20
一句话总结
该论文提出了首个在计算上高效的线性二次调节器(LQR)学习算法,实现 $\tilde{O}(\runtime)$ 的遗憾,解决了长期存在的开放性问题。通过将LQR问题重新表述为一系列凸半定规划(SDP),该算法采用乐观策略更新机制,随时间推移逐步收紧,实现探索与利用之间的平衡,从而在多项式时间内达到近似最优的遗憾。
ABSTRACT
We present the first computationally-efficient algorithm with $\widetilde O(\sqrt{T})$ regret for learning in Linear Quadratic Control systems with unknown dynamics. By that, we resolve an open question of Abbasi-Yadkori and Szepesvári (2011) and Dean, Mania, Matni, Recht, and Tu (2018).
研究动机与目标
- 解决在计算高效算法下实现 $\tilde{O}(\runtime)$ 遗憾的LQR控制开放性问题。
- 设计一种学习算法,在未知LQR系统中平衡探索与利用,且不产生指数级计算成本。
- 提供一种多项式时间算法,其统计遗憾界与先前工作一致,同时具备实际可实施性。
- 建立一种框架,使得无限时域LQR问题的半定松弛可随着数据积累而逐步提高近似精度。
- 将“面对不确定性时的乐观性”原则扩展至具有可证明效率与遗憾界保证的连续状态LQR系统。
提出的方法
- 将无限时域LQR问题重新表述为凸半定规划(SDP),以实现高效优化。
- 使用一系列SDP松弛生成‘乐观’策略,基于当前估计假设有利的系统动态。
- 利用最小二乘估计和高概率浓度不等式,维护对未知系统参数的置信集。
- 应用Hanson-Wright不等式和 $\rho$-网论证,控制状态和动作范数的尾部行为。
- 利用迹和算子范数不等式,界定系统动态矩阵 $(A_0, B_0)$ 的估计误差。
- 利用信息矩阵 $V$ 的结构,推导其逆范数界,确保随时间推移的参数估计精度。
实验结果
研究问题
- RQ1是否存在一种计算高效的算法,可在未知动态的LQR控制中实现 $\tilde{O}(\runtime)$ 遗憾?
- RQ2是否能够利用凸优化在连续LQR系统中保持面对不确定性的乐观性?
- RQ3如何利用半定规划近似无限时域LQR代价函数,同时确保收敛性?
- RQ4样本量 $T_0$ 与在噪声存在下估计系统参数的准确性之间有何关系?
- RQ5该算法是否能在不依赖每一步非凸优化的前提下,实现探索与利用的平衡?
主要发现
- 所提出的算法在未知动态的LQR控制中实现了 $\tilde{O}(\runtime)$ 遗憾,与统计下界相比仅差对数因子。
- 该算法每轮迭代均以多项式时间运行,解决了先前 $O(\runtime)$-遗憾方法的计算低效问题。
- 由于信息矩阵 $V$ 的增长,系统参数的估计误差以高概率衰减至 $O(1/\runtime)$。
- 信息矩阵 $V$ 的最小特征值下界为 $\Omega(T_0 \sigma^2)$,确保其可逆性与稳定学习。
- 以高概率,估计误差矩阵的迹被限制在 $O(n^2 \sigma^2 \log(T_0 / \delta))$ 以内,其中 $n$ 为状态-动作维度。
- 该算法确保策略在整个学习过程中保持稳定且代价有界,即使在初始不确定性下亦然。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。