QUICK REVIEW

[论文解读] Logarithmic Regret for Online Control

Naman Agarwal, Elad Hazan|arXiv (Cornell University)|Sep 11, 2019

Advanced Bandit Algorithms Research被引用 51

一句话总结

本文证明在带对抗性强凸成本的嘈杂线性动力系统中的在线控制可获得多对数后悔界（O(log^7 T)），并利用在线梯度下降与在线自然梯度方法。

ABSTRACT

We study optimal regret bounds for control in linear dynamical systems under adversarially changing strongly convex cost functions, given the knowledge of transition dynamics. This includes several well studied and fundamental frameworks such as the Kalman filter and the linear quadratic regulator. State of the art methods achieve regret which scales as $O(\sqrt{T})$, where $T$ is the time horizon. We show that the optimal regret in this setting can be significantly smaller, scaling as $O( ext{poly}(\log T))$. This regret bound is achieved by two different efficient iterative methods, online gradient descent and online natural gradient.

研究动机与目标

在已知动力学的前提下，推动在对抗性、强凸成本下的在线控制中实现远小于 sqrt(T) 的 regret。
开发在嘈杂线性动态系统中实现多对数 regret 的高效算法。
将 regret 保证推广到超越二次成本的通用强凸损失。
描述结构化控制器类别如何实现强凸性以及可解优化。

提出的方法

将控制形式化为带固定去稳定项的扰动-动作策略：u_t = -K x_t + sum_{i=1}^H M^{[i-1]} w_{t-i}。
引入基于过去扰动的代理状态与代理成本 f_t 以分析 regret。
对代理损失应用带记忆的在线凸优化（带记忆的 OC0）；在假设条件下证明它们在控制器参数上是强凸的。
给出两种迭代更新：Online Gradient Descent (OGD) 和带预处理器 (E[J^T J])^{-1} 的 Online Natural Gradient (ONG)。
推导实例相关和实例无关的 regret 界，在对角线性强稳定性（κ, γ）和有界噪声下得到随 T 的多对数 regret。

实验结果

研究问题

RQ1在带对抗性强凸损失的嘈杂 LDS 的在线控制中是否能实现对数级或多对数级的 regret？
RQ2在什么系统与成本假设下，代理损失在控制器参数上变得强凸？
RQ3在此控制设置下，OGD 与 ONG 在 regret 和对实例难度（mu）的依赖方面有何比较？
RQ4扰动记忆与对角线性强稳定性对实现快速 regret 的作用如何？

主要发现

在线梯度下降实现的 regret 上界为 tilde O( G^2 W^4 / (alpha sigma^2) * log^7(T) )。
在线自然梯度实现的 regret 上界为 tilde O( G W^2 / (alpha mu) * log^7(T) ), 其中 mu 通过雅可比矩阵 Gram 矩阵定义。
推论：对于球对称二次成本，ONG 在不依赖 sigma^2 最小特征值的情况下得到 tilde O( beta^2 W^2 / alpha * log^7(T) ) 的 regret。
分析表明，在 c_t 的 alpha-强凸性与 K 的对角线性强稳定性下，代理成本 f_t 相对于 M 是强凸的，从而获得更快的收敛速率。
两种算法变体在计算成本和实例相关性能保证之间提供权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。