QUICK REVIEW

[論文レビュー] Online convex optimization for cumulative constraints

Jianjun Yuan, Andrew Lamperski|arXiv (Cornell University)|Feb 19, 2018

Advanced Bandit Algorithms Research参考文献 28被引用数 18

ひとこと要約

本稿では、累積二乗制約違反を最小化する2つのオンライン凸最適化アルゴリズムを提案する。$ \sum_{t=1}^T ([g(x_t)]_+)^2 = O(T^{1-\beta})$（$\beta \in (0,1)$）を達成し、同時にサブラインアーなリグレットを維持する。手法は修正された増大ラグランジュフレームワークを用い、制約をきめ細かく追跡することで、1ステップあたりの違反が有界となり、従来の研究と比較して凸および強凸設定の両方でより良いリグレットバウンドを実現する。

ABSTRACT

We propose the algorithms for online convex optimization which lead to cumulative squared constraint violations of the form $\sum\limits_{t=1}^T\big([g(x_t)]_+\big)^2=O(T^{1-β})$, where $β\in(0,1)$. Previous literature has focused on long-term constraints of the form $\sum\limits_{t=1}^Tg(x_t)$. There, strictly feasible solutions can cancel out the effects of violated constraints. In contrast, the new form heavily penalizes large constraint violations and cancellation effects cannot occur. Furthermore, useful bounds on the single step constraint violation $[g(x_t)]_+$ are derived. For convex objectives, our regret bounds generalize existing bounds, and for strongly convex objectives we give improved regret bounds. In numerical experiments, we show that our algorithm closely follows the constraint boundary leading to low cumulative violation.

研究の動機と目的

累積二乗制約違反を扱うオンライン凸最適化を、長期平均よりも厳しいペナルティを導入することで解決すること。
長期間の平均とは無関係に、個々のステップでの制約違反$[g(x_t)]_+$のバウンドを提供し、従来の長期的制約定式化で見られるキャンセル効果を防ぐこと。
オンライン設定下での凸および強凸の目的関数に対して、リグレットおよび制約違反バウンドを改善すること。
制約境界をきめ細かく追跡するアルゴリズムを設計し、累積違反を最小化するとともに、低リグレットを維持すること。
既存のOCOフレームワークを、実時間システムにおける厳密な実行可能性要件に適したクリッピングまたは二乗制約ペナルティを扱えるように拡張すること。

提案手法

オンライン更新における目的関数最小化と制約満たしのバランスを図るため、修正された増大ラグランジュ関数を導入する。
二段階タイムスケール更新ルールを採用：デュアル変数とプライマル変数のそれぞれに別々のステップサイズを適用し、適応的である。
制約違反$[g(x_t)]_+$にクリッピング機構を適用し、個々のステップでの違反が$O(T^{-1/6})$で有界であることを保証する。
制約付き最適化を各ステップで高価に実行するのを避けるために、簡略化された閉形式近似を用いたプロジェクションに類似した更新を実装する。
強凸の場合、目的関数の強凸性を活用することで、$O(\log T)$のリグレットを達成する。
ユーザーが定義するパrameter $\beta \in (0,1)$ を用いて、リグレットと制約違反のトレードオフを動的にバランスする更新戦略を採用する。

実験結果

リサーチクエスチョン

RQ1オンライン凸最適化アルゴリズムは、累積二乗制約違反$\sum_{t=1}^T ([g(x_t)]_+)^2 = O(T^{1-\beta})$を達成できるか？
RQ2長期間の平均とは無関係に、個々のステップでの制約違反$[g(x_t)]_+$を独立してバウンドできるか？
RQ3累積二乗制約ペナルティ下で、強凸の目的関数に対して改善されたリグレットバウンドを達成できるか？
RQ4提案手法は、制約追跡およびリグレットパフォーマンスの観点で、従来の手法と比較してどのように異なるか？
RQ5ノイズありまたは時間的に変化する制約を扱えるように、このフレームワークを拡張可能か？

主な発見

凸の場合、$\sum_{t=1}^T ([g(x_t)]_+)^2 = O(T^{1-\beta})$および$\sum_{t=1}^T [g(x_t)]_+ = O(T^{1-\beta/2})$を達成し、1ステップあたりの違反は$O(T^{-1/6})$で有界である。
バランス状態（$\beta = 0.5$）では、リグレットおよび二乗制約違反の両方が$O(\sqrt{T})$にスケーリングする。
強凸の目的関数では、$O(\log T)$のリグレットと$O(\sqrt{\log T \cdot T})$の累積制約違反を達成し、標準的なOCOのリグレットレートと一致する。
数値実験では、アルゴリズムが制約境界をきめ細かく追跡しており、ベースライン手法と比較して累積違反が著しく低減されている。
二重確率的行列近似問題において、提案された強凸アルゴリズム（Our-Strong）は、リグレットおよび制約違反の両面でほぼ最適なパフォーマンスを達成している。
経済的ディスpatch問題において、アルゴリズムはほぼゼロに近い1ステップあたりの制約違反を維持しながら、オフライン最適戦略に近い目的関数コストを達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。