QUICK REVIEW

[论文解读] Online convex optimization for cumulative constraints

Jianjun Yuan, Andrew Lamperski|arXiv (Cornell University)|Feb 19, 2018

Advanced Bandit Algorithms Research参考文献 28被引用 18

一句话总结

本文提出两种在线凸优化算法，通过最小化累积平方约束违规，实现 $\sum_{t=1}^T ([g(x_t)]_+)^2 = O(T^{1-\beta})$（其中 $\beta \in (0,1)$），同时保持次线性遗憾。该方法采用改进的增广拉格朗日框架，精确跟踪约束，确保每步违规有界，并在凸与强凸情形下相比先前工作获得更优的遗憾边界。

ABSTRACT

We propose the algorithms for online convex optimization which lead to cumulative squared constraint violations of the form $\sum\limits_{t=1}^T\big([g(x_t)]_+\big)^2=O(T^{1-β})$, where $β\in(0,1)$. Previous literature has focused on long-term constraints of the form $\sum\limits_{t=1}^Tg(x_t)$. There, strictly feasible solutions can cancel out the effects of violated constraints. In contrast, the new form heavily penalizes large constraint violations and cancellation effects cannot occur. Furthermore, useful bounds on the single step constraint violation $[g(x_t)]_+$ are derived. For convex objectives, our regret bounds generalize existing bounds, and for strongly convex objectives we give improved regret bounds. In numerical experiments, we show that our algorithm closely follows the constraint boundary leading to low cumulative violation.

研究动机与目标

为解决具有累积平方约束违规的在线凸优化问题，采用比长期平均更严格的惩罚机制。
提供对每步约束违规 $[g(x_t)]_+$ 的边界控制，避免先前长期约束形式中出现的抵消效应。
在在线设置下，为凸与强凸目标改进遗憾与约束违规边界。
设计能紧密跟踪约束边界的算法，最小化累积违规，同时保持低遗憾。
将现有 OCO 框架扩展以处理截断或平方约束惩罚，适用于对可行性要求严格的实时系统。

提出的方法

引入改进的增广拉格朗日函数，以在在线更新中平衡目标最小化与约束满足。
采用双时间尺度更新规则：一个用于对偶变量，一个用于原始变量，步长自适应调整。
对约束违规 $[g(x_t)]_+$ 应用截断机制，确保单步违规被限制在 $O(T^{-1/6})$ 内。
通过简化闭式近似实现类似投影的更新，避免每步进行昂贵的约束优化。
在强凸情形下，利用目标函数的强凸性，算法实现 $O(\log T)$ 遗憾。
更新策略通过用户定义的参数 $\beta \in (0,1)$ 动态平衡遗憾与约束违规之间的权衡。

实验结果

研究问题

RQ1能否设计在线凸优化算法，实现次线性累积平方约束违规 $\sum_{t=1}^T ([g(x_t)]_+)^2 = O(T^{1-\beta})$？
RQ2如何独立于长期平均值，对每步约束违规 $[g(x_t)]_+$ 实现边界控制？
RQ3在累积平方约束惩罚下，能否为强凸目标实现改进的遗憾边界？
RQ4所提算法在约束跟踪与遗憾性能方面与先前方法相比如何？
RQ5该框架能否扩展以处理具有类似理论保证的噪声或时变约束？

主要发现

在凸情形下，算法实现 $\sum_{t=1}^T ([g(x_t)]_+)^2 = O(T^{1-\beta})$ 与 $\sum_{t=1}^T [g(x_t)]_+ = O(T^{1-\beta/2})$，单步违规被限制在 $O(T^{-1/6})$ 内。
在平衡情形（$\beta = 0.5$）下，遗憾与平方约束违规均以 $O(\sqrt{T})$ 规模增长。
对于强凸目标，算法实现 $O(\log T)$ 遗憾与 $O(\sqrt{\log T \cdot T})$ 累积约束违规，与标准 OCO 遗憾率一致。
数值实验表明，该算法紧密跟随约束边界，显著降低累积违规，优于基线方法。
在双随机矩阵逼近问题中，所提出的强凸算法（Our-Strong）在遗憾与约束违规方面均实现近似最优性能。
在经济调度问题中，该算法保持接近零的单步约束违规，同时实现接近离线最优策略的目标成本。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。