[论文解读] Online Linear Quadratic Control
本文提出了首个针对已知噪声动态和对抗性变化二次型代价的线性二次(LQ)控制的高效在线学习算法,实现了$O(\sqrt{T})$的遗憾。该方法采用一种新颖的半定规划(SDP)松弛,确保所有可行解均对应于具有指数混合特性的强稳定策略,从而使得在线梯度下降和追随懒惰领导者(FLL)算法能够实时追踪最优策略。
We study the problem of controlling linear time-invariant systems with known noisy dynamics and adversarially chosen quadratic losses. We present the first efficient online learning algorithms in this setting that guarantee $O(\sqrt{T})$ regret under mild assumptions, where $T$ is the time horizon. Our algorithms rely on a novel SDP relaxation for the steady-state distribution of the system. Crucially, and in contrast to previously proposed relaxations, the feasible solutions of our SDP all correspond to "strongly stable" policies that mix exponentially fast to a steady state.
研究动机与目标
- 解决具有对抗性变化二次型代价矩阵和已知线性动态的在线LQ控制问题。
- 设计高效的在线学习算法,在时间范围$T$内实现次线性遗憾。
- 通过一种新颖的SDP松弛,确保控制策略具有快速混合和稳定性。
- 通过将控制建模为稳态分布上的学习,弥合在线学习与控制理论之间的鸿沟。
- 在具有时变功耗成本的模拟数据中心冷却系统上展示实际性能。
提出的方法
- 将理想化的在线学习问题表述为通过新颖的SDP松弛在稳态分布上最小化期望代价。
- 确保SDP的所有可行解均对应于以指数速度快速收敛至稳态的强稳定策略。
- 应用在线梯度下降(OGD)并结合序列强稳定性特性,以耦合连续的控制矩阵。
- 使用带有软重置的追随懒惰领导者(FLL)以减少策略切换并改善遗憾界。
- 从预测的稳态分布而非直接从控制矩阵推导控制策略。
- 证明观测到的状态分布与理想化设定中的分布紧密跟踪,从而确保低遗憾。
实验结果
研究问题
- RQ1在线学习算法能否在具有对抗性变化代价和已知动态的LQ控制中实现$O(\sqrt{T})$的遗憾?
- RQ2如何设计一种凸松弛,使得所有可行解均产生强稳定控制策略?
- RQ3系统稳态分布与在线控制算法遗憾之间存在何种关系?
- RQ4基于OGD和FLL的在线算法能否被适配到具有二次型代价的连续线性系统?
- RQ5在现实控制场景中,在线算法的性能与固定策略及启发式策略相比如何?
主要发现
- 所提出的算法与任意固定强稳定线性策略相比,实现了$O(\sqrt{T})$的遗憾。
- 新颖的SDP松弛保证所有可行解均对应于指数混合、强稳定的策略。
- 基于OGD的算法保持了序列强稳定性,确保观测到的状态分布紧密跟踪理想化设定中的分布。
- 基于FLL的算法实现了$O(\sqrt{T})$的期望策略切换次数和$O(\sqrt{T})$的遗憾。
- 在模拟数据中心冷却系统上的实验表明,FLL的性能接近固定最优策略,并在均匀分布代价下优于近期策略。
- FLL中的软重置通过避免突兀过渡提升了实际性能,经验遗憾快速收敛至最优水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。