[论文解读] Corrupt Bandits for Preserving Local Privacy
该论文提出了KL-UCB-CF和Thompson Sampling-CF(TS-CF)两种算法,用于处理具有已知噪声函数的随机多臂赌博机问题,其中奖励通过已知的噪声函数随机变换。作者建立了与信息论下界匹配的问题相关后悔边界,并展示了如何调节噪声参数以在可控的后悔增长下实现局部差分隐私。
We study a variant of the stochastic multi-armed bandit (MAB) problem in which the rewards are corrupted. In this framework, motivated by privacy preservation in online recommender systems, the goal is to maximize the sum of the (unobserved) rewards, based on the observation of transformation of these rewards through a stochastic corruption process with known parameters. We provide a lower bound on the expected regret of any bandit algorithm in this corrupted setting. We devise a frequentist algorithm, KLUCB-CF, and a Bayesian algorithm, TS-CF and give upper bounds on their regret. We also provide the appropriate corruption parameters to guarantee a desired level of local privacy and analyze how this impacts the regret. Finally, we present some experimental results that confirm our analysis.
研究动机与目标
- 解决在观测反馈为真实奖励随机变换的多臂赌博机问题。
- 设计在反馈不完整且被污染的情况下仍能最大化真实累计奖励的算法。
- 形式化反馈污染作为在线推荐系统中实现局部差分隐私的机制。
- 推导所提算法的问题相关后悔边界,并证明其与信息论下界一致。
- 量化隐私(通过污染强度)与学习性能(后悔)之间的权衡。
提出的方法
- 使用已知的均值污染函数 $ g_a $ 形式化噪声赌博机问题,将真实奖励均值 $ \mu_a $ 映射到观测反馈均值 $ \lambda_a $。
- 提出KL-UCB-CF,一种基于观测反馈均值的KL散度置信区间选择臂的频率派算法。
- 引入TS-CF,一种贝叶斯算法,从反馈均值的后验分布中采样,并使用反向污染函数估计真实奖励均值。
- 通过将次优臂的期望抽取次数分解为置信区间违反和阈值穿越事件,推导后悔的上界。
- 利用一个新颖的技术引理,控制当反馈置信区间与最优臂的反馈均值重叠时选择次优臂的概率。
- 建立污染参数与局部差分隐私之间的联系,表明特定的污染矩阵可实现所需的隐私水平。
实验结果
研究问题
- RQ1我们能否设计出在存在随机污染反馈时仍能达到最优后悔的赌博机算法?
- RQ2反馈污染如何影响学习性能与用户隐私之间的根本权衡?
- RQ3在噪声赌博机设置下,后悔的信息论下界是什么?
- RQ4我们能否构造出在已知污染函数下渐近达到该下界的算法?
- RQ5我们如何调节污染过程,以在最小化后悔的同时实现期望的局部差分隐私水平?
主要发现
- 所提出的KL-UCB-CF和TS-CF算法实现了与推导出的信息论下界一致的问题相关后悔边界,仅在对数因子范围内。
- 两种算法的后悔均呈 $ O(\log T) $ 量级,证实了在噪声反馈设置下的渐近最优性。
- 论文证明了次优臂的期望抽取次数被限制在 $ O(\log T) $ 以内,常数取决于污染函数及其单调性。
- 一个新颖的技术引理控制了当反馈置信区间横跨最优反馈均值时选择次优臂的概率,即使在非单调污染下也成立。
- 作者证明了特定的污染矩阵可用于实现局部差分隐私,且后悔随隐私参数成比例增长。
- 实验结果验证了理论分析,表明在各种污染设置下,KL-UCB-CF和TS-CF在累积后悔方面均优于基线方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。