Skip to main content
QUICK REVIEW

[論文レビュー] Robust Online Learning for Resource Allocation - Beyond Euclidean Projection and Dynamic Fit

Ezra Tampubolon, Holger Boche|arXiv (Cornell University)|Jan 1, 2019
Advanced Bandit Algorithms Research参考文献 28被引用数 2
ひとこと要約

本稿では、制約違反の正負が相殺されるのを避けるために、違反の累積正部分を追跡することで、オンラインリソース割り当てのための新しいパフォーマンス指標h-CFitを導入する。ノイズのあるフィードバック下で、O(√T)の動的リグレットとO(T^{3/4})のh-CFitを達成する非因果的ミラー降下に基づくアルゴリズム(GOSMP)を提案し、特に滑らかでないエントロピーなどの非ユークリッド的ミラーマップを用いることで、最先端の手法を凌駕する。

ABSTRACT

Online-learning literature has focused on designing algorithms that ensure sub-linear growth of the cumulative long-term constraint violations. The drawback of this guarantee is that strictly feasible actions may cancel out constraint violations on other time slots. For this reason, we introduce a new performance measure called $\hCFit$, whose particular instance is the cumulative positive part of the constraint violations. We propose a class of non-causal algorithms for online-decision making, which guarantees, in slowly changing environments, sub-linear growth of this quantity despite noisy first-order feedback. Furthermore, we demonstrate by numerical experiments the performance gain of our method relative to the state of art.

研究の動機と目的

  • 時間スロットにわたる正負の制約違反の相殺を許容する伝統的な長期的制約違反測定法の限界を解決する。
  • キャンセル効果のない累積正制約違反を捉える新しいパフォーマンス指標h-CFitを構築する。
  • ゆっくり変化する環境においてh-CFitの非線形的成長を抑えるために、非因果的鞍点法に基づくオンラインミラー降下を提案する。
  • ノイズのある一次のフィードバック下での動的リグレットとh-CFitの理論的バウンドを確立する。
  • 実際の応用において、ユークリッド射影と比較して非ユークリッド的ミラーマップ(例:滑らかエントロピー)が優れた性能を示すかを検証する。

提案手法

  • 制約違反の累積正部分、∑ₜ h(gₜ(Xₜ)) として定義される性能指標h-CFitを導入する。ここで h(x) = [x]₊ である。
  • 時間変動する制約を扱うために、一般正則化子 ψ を用いたミラー降下に基づく非因果的プライマル・デュアルアルゴリズム GOSMP を設計する。
  • Fenchelカップリングを定義し、デュアル更新における強い凸性を保証するために、K-strongly convex正則化子によって誘導されるミラーマップ Φ を採用する。
  • 将来の情報を含む(非因果的)デュアル更新ルールを採用することで、よりタイトなリグレットおよび制約違反バウンドを達成する。
  • 実世界の不確実性を反映するために、マルティングル型フィードバックを組み込んだノイズモデルを導入する。
  • 強い凸性およびFenchelカップリングの性質を用いて、凸解析と双対性を応用し、リグレットとh-CFitのバウンドを導出する。

実験結果

リサーチクエスチョン

  • RQ1時間スロットにわたる制約違反の相殺を回避するオンラインリソース割り当てのためのパフォーマンス指標をどのように設計できるか?
  • RQ2ノイズのあるフィードバック下で、動的リグレットと累積制約違反の理論的トレードオフは何か?
  • RQ3非因果的ミラー降下法は、低い動的リグレットを維持しつつ、h-CFitの非線形的成長を達成できるか?
  • RQ4ミラーマップの選択(例:ユークリッド的 vs. 滑らかエントロピー)がアルゴリズムのロバスト性とパフォーマンスに与える影響は何か?
  • RQ5標準的なユークリッド射影と比較して、非ユークリッド的ミラーマップを用いることで、リグレットおよび制約違反の観点で測定可能な性能向上が得られるか?

主な発見

  • 提案されたh-CFit指標は、正の部分のみを合算することで制約違反の相殺を防ぎ、制約の不実行度のより正確な反映を可能にする。
  • GOSMPアルゴリズムは、最適解の変動を測るV_Tを用いて、O((1 + σ² + V_T)^{1/2} T^{1/2})の動的リグレットバウンドを達成する。
  • h-CFitバウンドはO(T^{3/4})であり、これは非線形的かつ従来の累積違反バウンドに比べ顕著な改善を示す。
  • 数値実験では、滑らかエントロピーを正則化子として用いたGOSMPが、ユークリッド射影を用いた場合と比較して、はるかに低い総累積動的リグレット(TADR)を達成する。
  • 非ユークリッド的ミラーマップ(滑らかエントロピー)を用いることで、ノイズ下でもよりロバストな挙動を示し、TADRの高い分散にもかかわらず、性能指標のボラティリティが低い。
  • GOSMPの性能の標準偏差は、滑らかエントロピーを用いた場合にユークリッド射影よりも低く、収束の安定性が向上していることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。