[论文解读] Adversarial Attacks on Stochastic Bandits
论文展示了对随机多臂赌博(stochastic multi-armed bandits)的奖励操纵攻击,表明攻击者在对 ε-greedy 和 UCB 学习者且不知道真实均值的情况下,只需对数级的攻击成本就能迫使智能体偏向目标臂。
We study adversarial attacks that manipulate the reward signals to control the actions chosen by a stochastic multi-armed bandit algorithm. We propose the first attack against two popular bandit algorithms: $ε$-greedy and UCB, \emph{without} knowledge of the mean rewards. The attacker is able to spend only logarithmic effort, multiplied by a problem-specific parameter that becomes smaller as the bandit problem gets easier to attack. The result means the attacker can easily hijack the behavior of the bandit algorithm to promote or obstruct certain actions, say, a particular medical treatment. As bandits are seeing increasingly wide use in practice, our study exposes a significant security threat.
研究动机与目标
- 通过研究在推荐、广告、医疗决策等场景中使用的随机 MAB 的潜在对手攻击来促进可信的在线学习。
- 定义一个三方模型(世界、Bob the bandit 和 Alice the attacker)并形式化奖励操纵攻击。
- 证明一个不具备知识的攻击者在对流行的 bandits 的对手攻击中,能够以次线性攻击成本几乎达到 oracle 攻击的水平。
- 提供 ε-greedy 和 UCB 的攻击策略,给出理论保证并进行实证验证。
- 讨论安全含义以及对这类攻击的防御方向。
提出的方法
- 定义奖励攻击:r_t = r_t^0 - α_t,其中 α_t 为攻击项。
- 表征攻击成本与成功:强制目标臂 K 被拉出 O(T) 次,总攻击成本为 O(log T)。
- 为 ε-greedy 和 UCB 构建在未知真实均值 μ_i 时可运行的攻击算法。
- 利用 β(N) = sqrt( (2σ^2/N) log(π^2 K N^2 / (3δ)) ) 等分布收敛项导出高概率界。
- 证明在对数后悔算法下,ε-greedy 的累计攻击成本为 O(sum_i Δ_i log T) ,以及对 UCB 的相应上界。
- 给出推论和固定参数分析,展示成本如何随 Δ_i、σ 和 T 变化。
实验结果
研究问题
- RQ1在线攻击者在不了解臂的均值的情况下,是否能操纵随机带来过度拉动目标臂?
- RQ2在奖励操纵下,ε-greedy 与 UCB 的攻击策略与成本保证是什么?
- RQ3攻击成本如何随时间 horizon T、奖励间隔 Δ_i、以及次高斯参数 σ 增长?
- RQ4在实际假设下这类攻击是否成立,以及对防御有何启示?
- RQ5实证结果如何支持理论界的界限?
主要发现
- 攻击者可以几乎在所有回合中强制目标臂被拉取,累计攻击成本随 T 增长而对数级增加。
- 对于典型的 ε_t ~ 1/t 的 ε-greedy,攻击成本的尺度为 Õ((Σ_i Δ_i) log T + σ K sqrt(log T))。
- 对于 UCB,攻击可以在成本 Õ((Σ_i (Δ_i+Δ_0)) log T + σ 相关项) 的情况下强制目标臂,在固定预算情形下成本与 Σ_i Δ_i 无关。
- 知道 μ_i 的 oracle 风险攻击不可行,因此影响依赖于无 μ_i 知识的自适应攻击。
- 经验仿真与理论结论一致,攻击成本呈对数增长,且能近似完全强制目标臂拉取。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。