[论文解读] Thompson Sampling for Linear-Quadratic Control Problems
本文在频率学设定下分析了线性二次(LQ)控制问题中的Thompson Sampling(TS),其中真实系统参数是固定但未知的。尽管TS在多臂赌博机问题中表现成功,作者表明由于策略切换频率与乐观采样之间的权衡,TS的遗憾为$O(T^{2/3})$,远差于LQ控制中乐观面对不确定性(OFU)方法的$O(\sqrt{T})$遗憾。
We consider the exploration-exploitation tradeoff in linear quadratic (LQ) control problems, where the state dynamics is linear and the cost function is quadratic in states and controls. We analyze the regret of Thompson sampling (TS) (a.k.a. posterior-sampling for reinforcement learning) in the frequentist setting, i.e., when the parameters characterizing the LQ dynamics are fixed. Despite the empirical and theoretical success in a wide range of problems from multi-armed bandit to linear bandit, we show that when studying the frequentist regret TS in control problems, we need to trade-off the frequency of sampling optimistic parameters and the frequency of switches in the control policy. This results in an overall regret of $O(T^{2/3})$, which is significantly worse than the regret $O(\sqrt{T})$ achieved by the optimism-in-face-of-uncertainty algorithm in LQ control problems.
研究动机与目标
- 分析在真实系统参数为固定而非从先验分布随机抽取的频率学设定下,Thompson Sampling(TS)在线性二次(LQ)控制问题中的频率学遗憾。
- 识别并形式化TS在LQ控制中策略切换频率与乐观采样频率之间的权衡。
- 在不假设参数先验分布的频率学设定下,建立TS在LQ系统中的遗憾界。
- 证明现有的TS在线性Bandit或贝叶斯LQ设定下的分析无法推广到频率学LQ控制情形。
- 将TS的性能与乐观面对不确定性(OFU)方法进行比较,后者在相同设定下可实现$O(\sqrt{T})$的遗憾。
提出的方法
- 通过从估计动力学和代价矩阵的后验分布中抽取系统参数,将Thompson Sampling适配到LQ控制中。
- 使用正则化最小二乘估计随时间更新参数信念,并利用浓度不等式保证稳定性。
- 引入基于时间范围或确定性策略变化触发器的终止条件,实现基于周期的控制,以管理策略切换频率。
- 采用一种新颖的证明技术,直接将遗憾与TS下执行的控制序列关联,结合鞅论论证和高概率事件分析。
- 将遗憾分解为与参数估计误差、策略切换成本和乐观采样概率相关的分量。
- 通过优化周期长度$\tau$,在频繁乐观采样与最小化策略切换带来的遗憾之间取得平衡,得出$\tau = O(T^{1/3})$。
实验结果
研究问题
- RQ1当真实参数为固定值时,Thompson Sampling在LQ控制问题中的频率学遗憾是多少?
- RQ2尽管TS在其他强化学习设定中表现成功,为何其在LQ控制中表现劣于乐观面对不确定性(OFU)方法?
- RQ3TS在LQ控制中的性能受何种权衡支配,该权衡如何影响遗憾界?
- RQ4现有的TS在贝叶斯或线性Bandit设定下的遗憾分析能否推广到频率学LQ控制设定?
- RQ5TS在LQ控制中$O(T^{2/3})$的遗憾是否为方法的固有局限,还是可通过不同设计改进?
主要发现
- 在单变量情形(n=d=1)下,Thompson Sampling在LQ控制问题中的频率学遗憾被限制在$O(T^{2/3})$以内。
- $O(T^{2/3})$的遗憾源于一个根本性权衡:即在乐观参数采样频率与最小化策略切换频率之间权衡,而每次策略切换都会增加遗憾。
- 与同一设定下OFU-LQ算法实现的$O(\sqrt{T})$遗憾相比,TS由于该权衡导致了显著更高的遗憾。
- 分析表明,现有TS在线性Bandit中的频率学遗憾界无法推广至LQ控制,原因在于控制策略的结构及其对采样动力学的依赖性。
- 该证明技术具有创新性,直接将遗憾与TS下执行的控制序列关联,利用鞅浓度不等式和高概率事件控制估计误差。
- 最终的遗憾界通过设定周期长度$\tau = O(T^{1/3})$实现优化,该设定在乐观采样与策略切换成本之间达到平衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。