QUICK REVIEW

[论文解读] Online Control with Adversarial Disturbances

Naman Agarwal, Brian Bullins|arXiv (Cornell University)|Feb 23, 2019

Advanced Bandit Algorithms Research被引用 61

一句话总结

本文提出一种针对对抗性扰动的线性动态系统的高效在线控制算法，在对一般凸成本的最佳线性控制器的后验上实现近似最优的遗憾界限（O(sqrt(T))）。

ABSTRACT

We study the control of a linear dynamical system with adversarial disturbances (as opposed to statistical noise). The objective we consider is one of regret: we desire an online control procedure that can do nearly as well as that of a procedure that has full knowledge of the disturbances in hindsight. Our main result is an efficient algorithm that provides nearly tight regret bounds for this problem. From a technical standpoint, this work generalizes upon previous work in two main aspects: our model allows for adversarial noise in the dynamics, and allows for general convex costs.

研究动机与目标

在对抗性扰动下推动鲁棒控制的研究，超越 i.i.d. 噪声假设。
开发一个在线学习框架，以最小化相对于最佳线性控制器的遗憾。
处理一般凸损失函数，不局限于二次成本。
提供一个计算上高效、具有可证明遗憾界的算法。

提出的方法

引入扰动-动作策略族，使动作表示为过去扰动的线性映射再加一个固定线性项。
通过截断时域 H 将控制问题降至具有记忆的在线凸优化。
在凸放宽的問題中对策略参数应用在线梯度下降。
利用带记忆的 OCO 的遗憾界来界定策略遗憾。
证明理想化成本 f_t 与实际成本 c_t 的近似误差有界。

实验结果

研究问题

RQ1在对抗性扰动下，基于扰动的策略的在线学习是否能在对最强稳健线性控制器下实现亚线性遗憾？
RQ2一般凸成本是否存在具有遗憾保证且高效的在线控制算法，超越二次成本？
RQ3在保持计算效率的同时，如何界定对状态演化和成本的对抗性扰动的影响？
RQ4扰动-动作策略族与传统线性控制器在表示能力和性能方面有何关系？

主要发现

所提出的算法相对于最佳强稳健线性控制器实现的遗憾为 O(GW^2 sqrt(T) log(T))。
在有界对抗扰动和任意序列的凸损失函数下，遗憾界成立。
扰动-动作策略足以表示对强稳态系统的任何固定线性策略。
该方法简化为对带记忆的损失进行在线梯度下降，并对 f_t 与 c_t 的近似误差给出可证明的界。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。