[论文解读] Beyond No-Regret: Competitive Control via Online Optimization with Memory
本文提出了乐观正则化在线平衡下降(ORBED)算法,用于具有记忆的在线优化,其中切换成本依赖于过去 $ p $ 次决策。该方法实现了与维度无关的常数竞争比,并建立了与对抗性在线控制的联系,首次为一类广泛的控制问题提供了常数竞争的控制策略。
This paper presents competitive algorithms for a novel class of online optimization problems with memory. We consider a setting where the learner seeks to minimize the sum of a hitting cost and a switching cost that depends on the previous $p$ decisions. This setting generalizes Smoothed Online Convex Optimization. The proposed approach, Optimistic Regularized Online Balanced Descent, achieves a constant, dimension-free competitive ratio. Further, we show a connection between online optimization with memory and online control with adversarial disturbances. This connection, in turn, leads to a new constant-competitive policy for a rich class of online control problems.
研究动机与目标
- 解决切换成本依赖于过去 $ p $ 次决策的在线优化问题,推广标准的平滑在线凸优化。
- 为这种依赖记忆的设定设计一种具有与维度无关的竞争比的竞争力算法。
- 建立在线优化中记忆机制与对抗性扰动下在线控制之间的理论联系。
- 基于所提出的框架,设计一种适用于广泛在线控制问题类别的新型常数竞争控制策略。
提出的方法
- 提出乐观正则化在线平衡下降(ORBED)算法,将过去 $ p $ 次决策的记忆整合到决策过程中。
- 引入一种乐观预测机制,以预测未来的成本变化,提升对对抗性序列的适应能力。
- 采用正则化更新规则,平衡损失成本与依赖记忆的切换成本,确保稳定性和竞争力。
- 利用记忆项的结构,推导出与问题维度无关的竞争比。
- 通过共享的数学结构,建立基于记忆的在线优化与对抗性扰动下在线控制之间的联系。
- 从 ORBED 框架中推导出一种控制策略,在对抗性扰动下仍能保持常数竞争力。
实验结果
研究问题
- RQ1我们能否设计一种在线优化算法,考虑依赖于过去 $ p $ 次决策的切换成本,并实现常数竞争比?
- RQ2将记忆机制引入在线优化,如何影响竞争比和算法的稳定性?
- RQ3在线优化中记忆机制与对抗性扰动下在线控制之间存在何种理论联系?
- RQ4所提出的框架能否为广泛类别的在线控制问题生成常数竞争的控制策略?
- RQ5ORBED 中的乐观预测机制是否相比标准在线平衡下降,在对抗性环境下提升性能?
主要发现
- 所提出的 ORBED 算法实现了与问题维度无关的常数竞争比,相较于先前方法具有显著改进。
- 即使切换成本依赖于过去 $ p $ 次决策,竞争比依然有界且与维度无关。
- 建立了在线优化中记忆机制与对抗性扰动下在线控制之间的正式联系,促进了跨领域洞察。
- 该框架首次为一类丰富的在线控制问题在对抗性扰动下提供了已知的常数竞争控制策略。
- ORBED 中的乐观预测组件通过预测未来成本变化,提升了性能,有助于实现常数竞争比。
- 结果推广了平滑在线凸优化,允许依赖记忆的切换成本,从而扩大了竞争力在线算法的应用范围。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。