[論文レビュー] Robust and Computationally Efficient Linear Contextual Bandits under Adversarial Corruption and Heavy-Tailed Noise
計算効率の高いオンライン鏡映降下ベースのアルゴリズム(CR-Hvt-UCB)を提案。対戦的な破損と重尾ノイズの両方に頑健で、境界付き(1+ε)モーメントを持つ線形文脈バンディットに対して、1回のラウンド更新をO(1)、後悔をサブ線形にする。
We study linear contextual bandits under adversarial corruption and heavy-tailed noise with finite $(1+ε)$-th moments for some $ε\in (0,1]$. Existing work that addresses both adversarial corruption and heavy-tailed noise relies on a finite variance (i.e., finite second-moment) assumption and suffers from computational inefficiency. We propose a computationally efficient algorithm based on online mirror descent that achieves robustness to both adversarial corruption and heavy-tailed noise. While the existing algorithm incurs $\mathcal{O}(t\log T)$ computational cost, our algorithm reduces this to $\mathcal{O}(1)$ per round. We establish an additive regret bound consisting of a term depending on the $(1+ε)$-moment bound of the noise and a term depending on the total amount of corruption. In particular, when $ε= 1$, our result recovers existing guarantees under finite-variance assumptions. When no corruption is present, it matches the best-known rates for linear contextual bandits with heavy-tailed noise. Moreover, the algorithm requires no prior knowledge of the noise moment bound or the total amount of corruption and still guarantees sublinear regret.
研究の動機と目的
- 対戦的破損と重尾ノイズを持つ線形文脈バンディットにおける頑健学習の必要性を動機づける。
- 計算効率が高く、境界付き(1+ε)モーメントノイズにも頑健なアルゴリズムを開発する。
- 未知の破損レベルとモーメント境界に適応した後悔保証を提供する。
- 有限分散の結果を境界付き(1+ε)モーメント設定へ一般化する。
提案手法
- オンライン鏡映降下(OMD)更新に基づくCR-Hvt-UCBを導入する。
- 適応スケールσ_tと閾値τ_tを用いたHuber型損失で破損と重尾を制御する。
- データ駆動更新で観測値を1/σ_t^2で重み付けし、破損の影響を制限するV_tを定義する。
- 効率のために閉形式の2段階表現を持つ各ラウンドのOMDステップを採用する。
- 分析に基づいて信頼半径β_tを構築するUCB風の腕選択を採用する。

実験結果
リサーチクエスチョン
- RQ1線形文脈バンディットは、境界付き(1+ε)モーメント仮定の下で、対戦的破損と重尾ノイズの両方に頑健であり得るか。
- RQ2これらの複合的課題の下で、1回のラウンド計算コストをO(1)に保ちながら後悔をサブ線形に抑えられるか。
- RQ3未知の破損レベルCと未知のモーメント境界ν_tは、後悔保証にどのように影響するか。
- RQ4提案手法は、既存の有限分散や単一課題アプローチとどのように関連し、一般化できるか。
主な発見
| Paper | C-Robust | HT-Robust | Efficiency | Regret |
|---|---|---|---|---|
| Abbasi-Yadkori et al. (2011) | No | No | O(1) | ~O(d√T) |
| Zhang et al. (2025) | No | No | O(1) | ~O(d√T) |
| He et al. (2022) | Yes | No | O(1) | ~O(d√T + dC) |
| Wang et al. (2025) | No | Yes | O(1) | ~O(dT^{(1-ε)/(2(1+ε))}√(∑ν_t^2) + dT^{(1-ε)/(2(1+ε))}) |
| Yu et al. (2025) | Yes | ε=1 only | O(t log T) | ~O(d√(∑ν_t^2) + d·1∨C) |
| Our work | Yes | Yes | O(1) | ~O(dT^{(1-ε)/(2(1+ε))}√(∑ν_t^2) + dT^{(1-ε)/(2(1+ε))}·1∨C) |
- CR-Hvt-UCBを導入し、境界付き(1+ε)モーメントを持つ対戦的破損と重尾ノイズの両方に頑健であることを示す。
- 1回の計算量はO(1)で、t回の更新を必要とする従来手法より優れている。
- 後悔境界は√∑ν_t^2と、総破損Cに比例する項にスケールし、ε=1のとき有限分散の結果を回復し、C=0のとき破損なしの重尾レートと一致する。
- Cとν_tが未知でも、σ_tへ上界を代入することにより後悔保証を成立させる(対応する系論を含む)。
- 破損がC = O(√T)に成長する場合、定数だけの差で未知のレートと一致し、既知の重尾結果と整合する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。