QUICK REVIEW

[論文レビュー] A Reduction from Delayed to Immediate Feedback for Online Convex Optimization with Improved Guarantees

Alexander Ryabchenko, Idan Attias|arXiv (Cornell University)|Feb 2, 2026

Advanced Bandit Algorithms Research被引用数 0

ひとこと要約

この論文は連続時間遅延モデルと遅延→即時フィードバックの削減を導入し、オンライン凸最適化（1階微分情報あり）とバンドイット凸最適化の遅延適応 regret 増減界を改善している。解析を統一し、遅延と凸性に適応する最先端あるいは改善されたレートを得る。

ABSTRACT

We develop a reduction-based framework for online learning with delayed feedback that recovers and improves upon existing results for both first-order and bandit convex optimization. Our approach introduces a continuous-time model under which regret decomposes into a delay-independent learning term and a delay-induced drift term, yielding a delay-adaptive reduction that converts any algorithm for online linear optimization into one that handles round-dependent delays. For bandit convex optimization, we significantly improve existing regret bounds, with delay-dependent terms matching state-of-the-art first-order rates. For first-order feedback, we recover state-of-the-art regret bounds via a simpler, unified analysis. Quantitatively, for bandit convex optimization we obtain $O(\sqrt{d_{ ext{tot}}} + T^{\frac{3}{4}}\sqrt{k})$ regret, improving the delay-dependent term from $O(\min\{\sqrt{T d_{ ext{max}}},(Td_{ ext{tot}})^{\frac{1}{3}}\})$ in previous work to $O(\sqrt{d_{ ext{tot}}})$. Here, $k$, $T$, $d_{ ext{max}}$, and $d_{ ext{tot}}$ denote the dimension, time horizon, maximum delay, and total delay, respectively. Under strong convexity, we achieve $O(\min\{σ_{ ext{max}} \ln T, \sqrt{d_{ ext{tot}}}\} + (T^2\ln T)^{\frac{1}{3}} {k}^{\frac{2}{3}})$, improving the delay-dependent term from $O(d_{ ext{max}} \ln T)$ in previous work to $O(\min\{σ_{ ext{max}} \ln T, \sqrt{d_{ ext{tot}}}\})$, where $σ_{ ext{max}}$ denotes the maximum number of outstanding observations and may be considerably smaller than $d_{ ext{max}}$.

研究の動機と目的

ラウンド依存の遅延を連続時間フレームワークを用いてオンライン学習として動機づけ・モデリングする。
遅延→即時フィードバックの削減を、一次情報とバンドイトフィードバックの双方に適用できるよう開発する。
事前知識としての遅延パラメータを要求せず、遅延適応の regret 増減界を提供する。
バンドイット凸最適化における改善された regret 率を達成し、1階微分OCOで状態-オブ-アートの境界を回復する。
ドリフトペナルティ付きオンライン線形最適化（OLO）削減による統一解析を提供する。

提案手法

予測と観測をタイムライン上のイベントとする連続時間モデルを導入し、遅延なしの regret と予測ドリフトに自然に分解可能な構造を作る。
遅延関連量（遅延、バックログ、およびその双対量）の同値性を示し、安定的なアルゴリズムに対する regret 分解を証明する。
遅延付きOCO/BCOを、遅延を伴うフィードバックを非遅延更新へ翻訳するラッパーを介してドリフトペナルティ付きOLOへ削減する。
Proximal Follow-The-Regularized-Leader (P-FTRL) と Online Mirror Descent (OMD) を包絡して遅延適応の regret 増減界を達成する。
同じ削減フレームワーク内でバンドイトフィードバックに対する単一点勾配推定を適用する。
大きな遅延が発生した場合に遅延影響をさらに低減する適応的スキップ方式を組み込む。

実験結果

リサーチクエスチョン

RQ1オンライン凸最適化における遅延フィードバックを、遅延の事前知識を仮定せずにモデリング・分析できるか。
RQ2遅延OCOと遅延BCOをドリフトペナルティ付き非遅延問題へ削減し、一次情報・バンドイト設定に跨る適応的 regret 増減界を得られるか。
RQ3凸性および強凸性の下で得られる regret 増減界は、d_tot, d_max, sigma_max のような遅延量にどう依存するか。
RQ4提案された削減が、遅延OCOおよび遅延BCOの最先端境界を回復あるいは改善し、二点バンドイトフィードバックを含むかどうか。

主な発見

遅延を伴うバンドイット凸最適化では、削減により期待 regret が O(sqrt(d_tot) + T^{3/4} sqrt(k)) となる。
強凸のバンドイット損失に対して境界は O(min{sigma_max ln T, sqrt(d_tot)} + (T^2 ln T)^{1/3} k^{2/3}) へ改善する。
一次情報フィードバックを伴うオンライン凸最適化では、凸の場合に regret が O(sqrt(d_tot) + sqrt(T)) に回復する。
強凸性のもとでは、一次情報OCO境界は O(min{sigma_max ln T, sqrt(d_tot)} + (T^2 ln T)^{1/3} k^{2/3}) となる。
このフレームワークは、d_max, d_tot, sigma_max, T の事前知識を必要とせず遅延適応の保証を提供し、遅延項を O(min_Q {|Q| + (sum_{t not in Q} d_t)^{1/2}}) にさらに削減するスキップをサポートする。
二点バンドイトフィードバックの拡張は、凸ケースでの regret を O(sqrt(d_tot) + sqrt(Tk))、強凸性下では O(min{sigma_max ln T, sqrt(d_tot)} + k ln T) の境界を与える。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。