Skip to main content
QUICK REVIEW

[논문 리뷰] Robust and Computationally Efficient Linear Contextual Bandits under Adversarial Corruption and Heavy-Tailed Noise

Naoto Tani, Futoshi Futami|arXiv (Cornell University)|2026. 03. 16.
Advanced Bandit Algorithms Research인용 수 0
한 줄 요약

계산적으로 효율적인 온라인 미러-디센트 기반 알고리즘(CR-Hvt-UCB)을 선형 맥락 밴딧에 대해 제시하며, 적대적 오염과 무거운 꼬리 노이즈를 모두 견딜 수 있는 바운드된 (1+ε)-모멘트를 갖고, 매 round 업데이트를 O(1)로 유지하며 서브선형 후회를 달성한다.

ABSTRACT

We study linear contextual bandits under adversarial corruption and heavy-tailed noise with finite $(1+ε)$-th moments for some $ε\in (0,1]$. Existing work that addresses both adversarial corruption and heavy-tailed noise relies on a finite variance (i.e., finite second-moment) assumption and suffers from computational inefficiency. We propose a computationally efficient algorithm based on online mirror descent that achieves robustness to both adversarial corruption and heavy-tailed noise. While the existing algorithm incurs $\mathcal{O}(t\log T)$ computational cost, our algorithm reduces this to $\mathcal{O}(1)$ per round. We establish an additive regret bound consisting of a term depending on the $(1+ε)$-moment bound of the noise and a term depending on the total amount of corruption. In particular, when $ε= 1$, our result recovers existing guarantees under finite-variance assumptions. When no corruption is present, it matches the best-known rates for linear contextual bandits with heavy-tailed noise. Moreover, the algorithm requires no prior knowledge of the noise moment bound or the total amount of corruption and still guarantees sublinear regret.

연구 동기 및 목표

  • 적대적 오염과 무거운 꼬리 노이즈 아래에서 선형 맥락 밴딧의 강건한 학습 필요성에 대한 동기 부여.
  • 바운드된 (1+ε)-모멘트 노이즈에서도 강건함을 유지하는 계산적으로 효율적인 알고리즘 개발.
  • 미지의 오염 수준 및 모멘트 경계에 적응하는 후회 보장 제공.
  • 유한 분산 결과를 바운드된 (1+ε)-모멘트 설정으로 일반화.

제안 방법

  • 온라인 미러 디센트(OMD) 업데이트를 기반으로 한 CR-Hvt-UCB 도입.
  • 오류 및 꼬리 오염을 제어하기 위해 적응 스케일 σ_t와 임계치 τ_t를 갖는 허버 손실(Huber loss) 사용.
  • 관측값을 1/σ_t^2로 가중하는 데이터 기반 업데이트를 통해 오염 영향 제한(V_t 정의).
  • 효율성을 위해 닫힌 형태의 두 단계 표현을 갖는 매-round OMD 스텝 사용.
  • 分析에서 구축된 신뢰 구간 반경 β_t를 사용하는 UCB 스타일의 팔 선택 채택.
(a) Regret ( $\epsilon=1$ )
(a) Regret ( $\epsilon=1$ )

실험 결과

연구 질문

  • RQ1선형 맥락 밴딧이 바운드된 (1+ε)-모멘트 가정 아래에서 적대적 오염과 무거운 꼬리 노이즈 모두에 대해 강건할 수 있는가?
  • RQ2이러한 이중 도전에 대해 O(1) 매 라운드 계산비용을 달성하면서 서브선형 후회를 유지할 수 있는가?
  • RQ3미지의 오염 수준 C와 미지의 모멘트 경계 ν_t가 후회 보장에 어떤 영향을 미치는가?
  • RQ4제안된 방법이 기존의 유한 분산 또는 단일 한계를 가지는 방법들과 어떻게 관련되며 일반화되는가?

주요 결과

PaperC-RobustHT-RobustEfficiencyRegret
Abbasi-Yadkori et al. (2011)NoNoO(1)~O(d√T)
Zhang et al. (2025)NoNoO(1)~O(d√T)
He et al. (2022)YesNoO(1)~O(d√T + dC)
Wang et al. (2025)NoYesO(1)~O(dT^{(1-ε)/(2(1+ε))}√(∑ν_t^2) + dT^{(1-ε)/(2(1+ε))})
Yu et al. (2025)Yesε=1 onlyO(t log T)~O(d√(∑ν_t^2) + d·1∨C)
Our workYesYesO(1)~O(dT^{(1-ε)/(2(1+ε))}√(∑ν_t^2) + dT^{(1-ε)/(2(1+ε))}·1∨C)
  • CR-Hvt-UCB를 도입하여 적대적 오염과 무거운 꼬리 노이즈에 대해 바운드된 (1+ε)-모멘트의 조건에서 강건성을 달성한다.
  • 매 라운드 계산이 O(1)로, 과거 방법들이 필요한 O(t log T) 업데이트를 능가한다.
  • 후회 경계는 √(∑ν_t^2)와 총 오염 C에 선형인 항에 비례하며, ε=1일 때 유한 분산 결과를 복원하고 C=0일 때 무오염의 무거운 꼬리 속도와 일치한다.
  • C와/또는 ν_t가 알려지지 않았을 때에도 σ_t에 상한을 대입하는 방식으로 보장을 유지하며(해당 코롤러리 포함).
  • 오염이 C = O(√T)로 증가할 때, 비오염 속도에 근접하도록 경계가 상수로 맞춰지며, 알려진 최적의 무거운 꼬리 결과와도 일치한다.
(b) Runtime ( $\epsilon=1$ )
(b) Runtime ( $\epsilon=1$ )

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.