QUICK REVIEW

[论文解读] Learning-based Control of Unknown Linear Systems with Thompson Sampling

Yi Ouyang, Mukul Gagrani|arXiv (Cornell University)|Sep 12, 2017

Advanced Bandit Algorithms Research参考文献 5被引用 39

一句话总结

本文提出动态时段的汤普森采样（TSDE），一种用于未知线性二次（LQ）系统的基于学习的控制算法。通过采用两种动态时段停止准则——增长率控制与协方差行列式衰减，TSDE 实现了 $\tilde{O}(\sqrt{T})$ 的贝叶斯后悔界，这是LQ控制领域首个此类近似最优结果，并通过重新初始化扩展至时变参数情形。

ABSTRACT

We propose a Thompson sampling-based learning algorithm for the Linear Quadratic (LQ) control problem with unknown system parameters. The algorithm is called Thompson sampling with dynamic episodes (TSDE) where two stopping criteria determine the lengths of the dynamic episodes in Thompson sampling. The first stopping criterion controls the growth rate of episode length. The second stopping criterion is triggered when the determinant of the sample covariance matrix is less than half of the previous value. We show under some conditions on the prior distribution that the expected (Bayesian) regret of TSDE accumulated up to time T is bounded by O(\sqrt{T}). Here O(.) hides constants and logarithmic factors. This is the first O(\sqrt{T} ) bound on expected regret of learning in LQ control. By introducing a reinitialization schedule, we also show that the algorithm is robust to time-varying drift in model parameters. Numerical simulations are provided to illustrate the performance of TSDE.

研究动机与目标

解决在未知参数的随机线性系统中学习最优控制策略的挑战，其中传统自适应控制缺乏非渐近保证。
通过设计一种计算高效的算法，克服基于学习的控制中的利用-探索权衡，以平衡探索与利用。
在LQ控制问题中实现接近最优的贝叶斯后悔界 $\tilde{O}(\sqrt{T})$，其与信息论下界仅相差对数因子。
通过引入重新初始化调度，将算法扩展至处理时变系统参数，确保对参数漂移的鲁棒性。
通过仿真表明，TSDE 在标量和多维系统中均实现了次线性后悔，即使在系统不稳定和非平稳动态条件下亦成立。

提出的方法

提出动态时段的汤普森采样（TSDE），其中时段根据两个标准终止：(1) 时段长度的增长率受控，(2) 当样本协方差矩阵的行列式低于其前一值的一半时，触发加倍技巧。
在每个时段开始时，从后验分布中采样系统参数，以形成乐观估计，从而在无需求解复杂优化问题的情况下实现探索。
使用贝叶斯更新框架，利用收集到的状态和控制数据，持续维护并改进未知系统参数（A, B）的后验分布。
在TSDE-TV中引入重新初始化调度，以适应时变参数，使算法能够跟踪系统动态的变化并保持次线性后悔。
利用LQ控制问题的结构，结合浓度不等式和在给定先验假设下后验分布的性质，推导出后悔界。
应用动态时段设计，避免基于OFU方法的计算负担，同时实现相当的后悔性能。

实验结果

研究问题

RQ1汤普森采样能否被有效适配于未知参数的LQ控制问题，以实现接近最优的后悔界？
RQ2何种时段调度机制可使汤普森采样在LQ控制中平衡探索与利用，同时保持计算效率？
RQ3在时变系统参数下，该算法能否保持次线性后悔？若能，其适用条件为何？
RQ4在后悔和计算成本方面，TSDE 与现有基于OFU的算法相比表现如何？
RQ5当对参数分布的先验假设被放宽时，该算法的鲁棒性在多大程度上仍成立？

主要发现

TSDE 实现了 $\tilde{O}(\sqrt{T})$ 的贝叶斯后悔界，这是基于学习的LQ控制领域首个此类近似最优结果，与已知下界仅相差对数因子。
该算法在仿真中成功控制了稳定与不稳定的标量及多维LQ系统，其后悔随时间以 $\tilde{O}(\sqrt{T})$ 的速度次线性增长。
即使在违反假设2（关于先验分布）的情况下（例如 $\delta = 2$），TSDE 仍表现出次线性后悔，表明其在理论假设之外也具有鲁棒性。
对于时变参数，采用重新初始化的TSDE-TV变体能保持次线性累积后悔，且单位时间的后悔随时间递减至零。
TSDE-TV的单位时间后悔衰减至零，证实该算法尽管存在参数漂移，仍能渐近学习到最优控制策略。
数值结果确认，标量与多维系统中的后悔增长速率与理论 $\tilde{O}(\sqrt{T})$ 边界一致，验证了理论分析。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。