[논문 리뷰] Robust and Computationally Efficient Linear Contextual Bandits under Adversarial Corruption and Heavy-Tailed Noise
계산적으로 효율적인 온라인 미러-디센트 기반 알고리즘(CR-Hvt-UCB)을 선형 맥락 밴딧에 대해 제시하며, 적대적 오염과 무거운 꼬리 노이즈를 모두 견딜 수 있는 바운드된 (1+ε)-모멘트를 갖고, 매 round 업데이트를 O(1)로 유지하며 서브선형 후회를 달성한다.
We study linear contextual bandits under adversarial corruption and heavy-tailed noise with finite $(1+ε)$-th moments for some $ε\in (0,1]$. Existing work that addresses both adversarial corruption and heavy-tailed noise relies on a finite variance (i.e., finite second-moment) assumption and suffers from computational inefficiency. We propose a computationally efficient algorithm based on online mirror descent that achieves robustness to both adversarial corruption and heavy-tailed noise. While the existing algorithm incurs $\mathcal{O}(t\log T)$ computational cost, our algorithm reduces this to $\mathcal{O}(1)$ per round. We establish an additive regret bound consisting of a term depending on the $(1+ε)$-moment bound of the noise and a term depending on the total amount of corruption. In particular, when $ε= 1$, our result recovers existing guarantees under finite-variance assumptions. When no corruption is present, it matches the best-known rates for linear contextual bandits with heavy-tailed noise. Moreover, the algorithm requires no prior knowledge of the noise moment bound or the total amount of corruption and still guarantees sublinear regret.
연구 동기 및 목표
- 적대적 오염과 무거운 꼬리 노이즈 아래에서 선형 맥락 밴딧의 강건한 학습 필요성에 대한 동기 부여.
- 바운드된 (1+ε)-모멘트 노이즈에서도 강건함을 유지하는 계산적으로 효율적인 알고리즘 개발.
- 미지의 오염 수준 및 모멘트 경계에 적응하는 후회 보장 제공.
- 유한 분산 결과를 바운드된 (1+ε)-모멘트 설정으로 일반화.
제안 방법
- 온라인 미러 디센트(OMD) 업데이트를 기반으로 한 CR-Hvt-UCB 도입.
- 오류 및 꼬리 오염을 제어하기 위해 적응 스케일 σ_t와 임계치 τ_t를 갖는 허버 손실(Huber loss) 사용.
- 관측값을 1/σ_t^2로 가중하는 데이터 기반 업데이트를 통해 오염 영향 제한(V_t 정의).
- 효율성을 위해 닫힌 형태의 두 단계 표현을 갖는 매-round OMD 스텝 사용.
- 分析에서 구축된 신뢰 구간 반경 β_t를 사용하는 UCB 스타일의 팔 선택 채택.

실험 결과
연구 질문
- RQ1선형 맥락 밴딧이 바운드된 (1+ε)-모멘트 가정 아래에서 적대적 오염과 무거운 꼬리 노이즈 모두에 대해 강건할 수 있는가?
- RQ2이러한 이중 도전에 대해 O(1) 매 라운드 계산비용을 달성하면서 서브선형 후회를 유지할 수 있는가?
- RQ3미지의 오염 수준 C와 미지의 모멘트 경계 ν_t가 후회 보장에 어떤 영향을 미치는가?
- RQ4제안된 방법이 기존의 유한 분산 또는 단일 한계를 가지는 방법들과 어떻게 관련되며 일반화되는가?
주요 결과
| Paper | C-Robust | HT-Robust | Efficiency | Regret |
|---|---|---|---|---|
| Abbasi-Yadkori et al. (2011) | No | No | O(1) | ~O(d√T) |
| Zhang et al. (2025) | No | No | O(1) | ~O(d√T) |
| He et al. (2022) | Yes | No | O(1) | ~O(d√T + dC) |
| Wang et al. (2025) | No | Yes | O(1) | ~O(dT^{(1-ε)/(2(1+ε))}√(∑ν_t^2) + dT^{(1-ε)/(2(1+ε))}) |
| Yu et al. (2025) | Yes | ε=1 only | O(t log T) | ~O(d√(∑ν_t^2) + d·1∨C) |
| Our work | Yes | Yes | O(1) | ~O(dT^{(1-ε)/(2(1+ε))}√(∑ν_t^2) + dT^{(1-ε)/(2(1+ε))}·1∨C) |
- CR-Hvt-UCB를 도입하여 적대적 오염과 무거운 꼬리 노이즈에 대해 바운드된 (1+ε)-모멘트의 조건에서 강건성을 달성한다.
- 매 라운드 계산이 O(1)로, 과거 방법들이 필요한 O(t log T) 업데이트를 능가한다.
- 후회 경계는 √(∑ν_t^2)와 총 오염 C에 선형인 항에 비례하며, ε=1일 때 유한 분산 결과를 복원하고 C=0일 때 무오염의 무거운 꼬리 속도와 일치한다.
- C와/또는 ν_t가 알려지지 않았을 때에도 σ_t에 상한을 대입하는 방식으로 보장을 유지하며(해당 코롤러리 포함).
- 오염이 C = O(√T)로 증가할 때, 비오염 속도에 근접하도록 경계가 상수로 맞춰지며, 알려진 최적의 무거운 꼬리 결과와도 일치한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.