QUICK REVIEW

[論文レビュー] A Low Complexity Algorithm with $O(\sqrt{T})$ Regret and $O(1)$ Constraint Violations for Online Convex Optimization with Long Term Constraints

Hao Yu, Michael J. Neely|arXiv (Cornell University)|Apr 8, 2016

Advanced Bandit Algorithms Research参考文献 18被引用数 19

ひとこと要約

本稿では、長期的関数的制約を伴うオンライン凸最適化問題に対して、$O(√T)$のリグレットと$O(1)$の制約違反を達成する、低複雑性のオンライン凸最適化アルゴリズムを提案する。適応的ペナルティパラメータを用いたデュアル平均に基づく更新則を導入することで、高価な射影を回避しつつ、累積的制約違反が有界に保たれることを保証する。従来の方法が増大する制約違反を抱えるのに対し、本手法はそれらを凌駕する性能を示す。

ABSTRACT

This paper considers online convex optimization over a complicated constraint set, which typically consists of multiple functional constraints and a set constraint. The conventional online projection algorithm (Zinkevich, 2003) can be difficult to implement due to the potentially high computation complexity of the projection operation. In this paper, we relax the functional constraints by allowing them to be violated at each round but still requiring them to be satisfied in the long term. This type of relaxed online convex optimization (with long term constraints) was first considered in Mahdavi et al. (2012). That prior work proposes an algorithm to achieve $O(\sqrt{T})$ regret and $O(T^{3/4})$ constraint violations for general problems and another algorithm to achieve an $O(T^{2/3})$ bound for both regret and constraint violations when the constraint set can be described by a finite number of linear constraints. A recent extension in \citet{Jenatton16ICML} can achieve $O(T^{\max\{θ,1-θ\}})$ regret and $O(T^{1-θ/2})$ constraint violations where $θ\in (0,1)$. The current paper proposes a new simple algorithm that yields improved performance in comparison to prior works. The new algorithm achieves an $O(\sqrt{T})$ regret bound with $O(1)$ constraint violations.

研究の動機と目的

制約が複雑な場合に射影に基づくオンライン凸最適化の計算コストが高くなる問題に対処すること。
電力系統やネットワークスケジューリングなど、複雑な制約集合を持つシステムへのオンラインアルゴリズムの実用的導入を可能にすること。
個々のラウンドで制約が違反されても、時間経過とともに制約違反が有界に保たれ、サブ線形リグレットを達成すること。
複雑な制約集合への反復的射影を回避しつつ、強力な理論的性能保証を維持する手法を開発すること。
従来の手法が$O(T^{3/4})$や$O(T^{2/3})$の制約違反境界を抱えるのを改善すること。

提案手法

長期的制約違反を追跡するためのデュアル変数ベクトルを維持するデュアル平均に基づく更新則を導入する。
リグレットと制約違反のバランスを取るために、時間に依存するペナルティパラメータを$\Theta(\sqrt{t})$のスケーリングで使用する。
複雑な関数的制約への射影を避けるために、基本凸集合$\mathcal{X}_0$への単純な射影のみを実行する。
未知の時間枠$T$に対処するために、ダブルイングトリックを適用する。
適切に選ばれたステップサイズとペナルティ更新則を用いた部分勾配降下法により、リグレット境界を導出する。
適応的デュアル変数更新により、制約違反が定数で有界に保たれることを保証する。

実験結果

リサーチクエスチョン

RQ1低複雑性のオンラインアルゴリズムは、長期的制約を伴うオンライン凸最適化において、$O(\sqrt{T})$のリグレットと$O(1)$の制約違反を達成できるか？
RQ2複雑な関数的制約集合への高価な射影を回避しつつ、強力な理論的性能を維持することは可能か？
RQ3提案手法の性能は、$O(T^{3/4})$や$O(T^{2/3})$の制約違反を示す従来の手法と比べてどのように異なるか？
RQ4時間枠$T$の事前知識がなくても、アルゴリズムを実装できるか？
RQ5適応的ペナルティパラメータスキームは、サブ線形リグレットと有界な制約違反の両方を保証できるか？

主な発見

提案手法は$O(\sqrt{T})$のリグレットを達成し、オンライン凸最適化における最高の既知の境界と一致する。
制約違反は定数で有界であり、$O(1)$の違反を達成しており、従来の$O(T^{3/4})$や$O(T^{2/3})$の境界と比べて顕著な改善である。
各ラウンドで複雑な凸計画問題を解くのを避けるために、$\mathcal{X}_0$へのみ射影を行うことで、計算コストを著しく削減する。
数値実験により、$T=5000$の1000回の独立試行において、低リグレットと有界な制約違反を維持することが確認された。
リグレットの観点では他の$O(\sqrt{T})$リグレット手法と同等の性能を示すが、制約違反の観点では著しく優れている。
ダブルイングトリックにより、$T$の事前知識がなくてもアルゴリズムが動作し、同じ理論的境界を維持できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。