QUICK REVIEW

[论文解读] Multi-Armed Bandits with Local Differential Privacy

Wenbo Ren, Xingyu Zhou|arXiv (Cornell University)|Jul 6, 2020

Advanced Bandit Algorithms Research参考文献 24被引用 28

一句话总结

本文提出了一类局部差分隐私（LDP）多臂赌博机算法，其遗憾界与理论下界在常数因子内匹配。通过采用校准的随机响应机制（拉普拉斯和伯努利）实现本地隐私，所提出的LDP-UCB-L与LDP-UCB-B算法在保证$\epsilon$-LDP的同时，维持了依赖于分布的遗憾界$O\left(\sum_{a:\Delta_a>0} \left[\frac{\log T}{\epsilon^2 \Delta_a} + \Delta_a \right]\right)$，并通过数值实验验证了其紧致性。

ABSTRACT

This paper investigates the problem of regret minimization for multi-armed bandit (MAB) problems with local differential privacy (LDP) guarantee. In stochastic bandit systems, the rewards may refer to the users' activities, which may involve private information and the users may not want the agent to know. However, in many cases, the agent needs to know these activities to provide better services such as recommendations and news feeds. To handle this dilemma, we adopt differential privacy and study the regret upper and lower bounds for MAB algorithms with a given LDP guarantee. In this paper, we prove a lower bound and propose algorithms whose regret upper bounds match the lower bound up to constant factors. Numerical experiments also confirm our conclusions.

研究动机与目标

为解决序列决策系统中个性化服务性能与用户隐私之间的权衡问题。
研究在局部差分隐私（LDP）约束下多臂赌博机（MAB）问题的遗憾最小化。
建立LDP-MAB算法的紧致理论遗憾界——包括下界与上界。
设计与理论下界在常数因子内匹配的实际LDP赌博机算法。
通过在有界与无界奖励分布上的数值实验验证理论发现。

提出的方法

提出两种LDP赌博机算法：LDP-UCB-L使用拉普拉斯噪声，LDP-UCB-B使用伯努利机制实现本地隐私。
在每个用户奖励传输前应用校准的随机响应，确保$\epsilon$-局部差分隐私。
在上置信度（UCB）原则中引入隐私感知的置信区间，其尺度与$\epsilon$相关。
通过分析隐私约束下探索与利用之间的权衡，推导遗憾的上界。
利用隐私参数$\epsilon$的倒数控制噪声水平，$\epsilon$越大则边界越紧。
采用新颖的分析框架，使推导出的遗憾下界与上界在常数因子内匹配。

实验结果

研究问题

RQ1在$\epsilon$-局部差分隐私下，多臂赌博机的遗憾的根本极限（下界）是什么？
RQ2LDP赌博机算法能否实现与该理论下界在常数因子内匹配的遗憾上界？
RQ3不同的本地隐私机制——拉普拉斯与伯努利——在MAB设置中如何影响遗憾性能？
RQ4所提出的LDP-UCB框架是否在伯努利假设之外的多种奖励分布上仍保持强性能？
RQ5隐私参数$\epsilon$如何影响遗憾？理论缩放关系是否在实验中得到确认？

主要发现

本文建立了$\epsilon$-LDP多臂赌博机的遗憾下界，证明任何算法都无法获得优于$\Omega\left(\sum_{a:\Delta_a>0} \left[\frac{\log T}{\epsilon^2 \Delta_a} + \Delta_a \right]\right)$的遗憾。
所提出的LDP-UCB-L算法实现了上界为$O\left(\sum_{a:\Delta_a>0} \left[\frac{\log T}{\epsilon^2 \Delta_a} + \Delta_a \right]\right)$的遗憾，与下界在常数因子内匹配。
LDP-UCB-B实现了相同的渐近遗憾界，且由于使用伯努利机制，常数因子更小。
数值结果表明，在$\epsilon = 2.0$时，LDP-UCB-B的遗憾为非私有UCB的1.6倍，与理论上的上界$1.7\times$非常接近。
在$\epsilon = 0.2$时，LDP-UCB-L与非私有UCB的遗憾比达到8.5倍，与理论上的上界$9.0\times$一致。
这些算法在多种奖励分布（包括伯努利、Beta、均匀分布和离散分布）上均保持强性能，表明其在伯努利假设之外也具有鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。