QUICK REVIEW

[论文解读] Online Convex Optimization with Stochastic Constraints

Hao Yu, Michael J. Neely|arXiv (Cornell University)|Aug 12, 2017

Advanced Bandit Algorithms Research参考文献 27被引用 29

一句话总结

本文提出了一种新颖的在线凸优化算法，用于处理具有随机约束的问题——其中约束为独立同分布的实现，在决策做出后才被揭示。该算法实现了 $O(\sqrt{T})$ 的期望遗憾和约束违规，以及 $O(\sqrt{T}\log T)$ 的高概率边界，优于先前方法在不确定性下的次线性增长表现。

ABSTRACT

This paper considers online convex optimization (OCO) with stochastic constraints, which generalizes Zinkevich's OCO over a known simple fixed set by introducing multiple stochastic functional constraints that are i.i.d. generated at each round and are disclosed to the decision maker only after the decision is made. This formulation arises naturally when decisions are restricted by stochastic environments or deterministic environments with noisy observations. It also includes many important problems as special cases, such as OCO with long term constraints, stochastic constrained convex optimization, and deterministic constrained convex optimization. To solve this problem, this paper proposes a new algorithm that achieves $O(\sqrt{T})$ expected regret and constraint violations and $O(\sqrt{T}\log(T))$ high probability regret and constraint violations. Experiments on a real-world data center scheduling problem further verify the performance of the new algorithm.

研究动机与目标

解决在线凸优化中存在随机约束的问题，这些约束为独立同分布的实现，且仅在决策做出后才被揭示。
克服先前 OCO 方法的局限性，这些方法需要已知约束集，或在时间变化的约束下失效。
设计一种算法，确保在未知分布和延迟约束信息的情况下，遗憾和约束违规均以次线性方式增长。
推广至重要特例，如具有长期约束的 OCO、随机优化以及确定性约束问题。
实现遗憾和约束违规的理论边界，这些边界紧致且适用于现实世界应用，如数据中心调度。

提出的方法

引入一种基于对偶的在线算法，通过动态对偶变量向量 $\mathbf{Q}(t)$ 跟踪约束违规情况。
采用李雅普诺夫优化框架，通过时变惩罚参数 $V$ 平衡遗憾与约束违规。
使用损失函数 $f^t(\cdot)$ 的次梯度和对偶变量，对决策 $\mathbf{x}(t)$ 进行投影梯度更新。
引入随机舍入或采样机制，以处理随机约束的未知分布。
利用集中不等式（例如霍夫丁型界限）来限制大约束违规的概率。
采用时变步长和对偶更新规则，以确保遗憾和违规的收敛性及次线性增长。

实验结果

研究问题

RQ1当约束为独立同分布且在决策后才被揭示时，在线凸优化中具有随机约束的问题能否以次线性遗憾和约束违规得到解决？
RQ2何种算法结构能够在随机约束下同时实现 $O(\sqrt{T})$ 的期望遗憾和 $O(\sqrt{T}\log T)$ 的高概率边界？
RQ3与现有方法相比，该方法在理论保证和现实世界问题上的实际性能表现如何？
RQ4该框架能否作为一般随机和确定性约束优化问题的特例加以应用？
RQ5对偶变量动态和时变惩罚参数对收敛性和约束满足有何影响？

主要发现

所提算法实现了 $O(\sqrt{T})$ 的期望遗憾和 $O(\sqrt{T})$ 的期望约束违规，与标准 OCO 的最佳已知边界一致。
以高概率，遗憾和约束违规被限制在 $O(\sqrt{T}\log T)$ 以内，提供了更强的 probabilistic 保证。
该算法可适用于具有长期约束的 OCO、随机约束优化以及确定性约束问题作为特例。
在真实世界数据中心调度问题上的实验验证了该算法的性能，其成本和约束满足度与基线方法相比具有竞争力。
理论分析证明，即使约束集未知且投影定义不明确，该算法仍能保持遗憾和约束违规的次线性增长。
采用时变惩罚参数 $V=\sqrt{T}$ 和对偶变量更新，确保对偶漂移和李雅普诺夫函数随时间适当衰减。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。