QUICK REVIEW

[论文解读] Differential Privacy for Multi-armed Bandits: What Is It and What Is Its Cost?

Debabrota Basu, Christos Dimitrakakis|arXiv (Cornell University)|May 29, 2019

Advanced Bandit Algorithms Research参考文献 18被引用 18

一句话总结

本文通过图模型框架建模隐私，并在各种隐私约束下推导出极小极大和贝叶斯后悔下界，统一了多臂老虎机中差分隐私的定义。结果表明，隐私会以依赖于ε的乘法因子降低性能，当奖励不强制实施本地差分隐私时，性能退化程度更弱。

ABSTRACT

Based on differential privacy (DP) framework, we introduce and unify privacy definitions for the multi-armed bandit algorithms. We represent the framework with a unified graphical model and use it to connect privacy definitions. We derive and contrast lower bounds on the regret of bandit algorithms satisfying these definitions. We leverage a unified proving technique to achieve all the lower bounds. We show that for all of them, the learner's regret is increased by a multiplicative factor dependent on the privacy level $ε$. We observe that the dependency is weaker when we do not require local differential privacy for the rewards.

研究动机与目标

统一并形式化多臂老虎机设置中差分隐私定义，特别是解决输入、输出和邻域定义中的模糊性。
通过在不同隐私约束下推导极小极大和贝叶斯后悔下界，分析隐私与学习效率之间的权衡。
比较局部与非局部差分隐私机制在老虎机算法中的性能成本。
建立一个通用框架，利用适配于差分隐私的KL散度分解引理证明后悔下界。
以依赖于ε的乘法因子量化隐私的根本成本，即增加的后悔。

提出的方法

提出统一的图模型以表示老虎机学习过程，并基于输入、输出和邻域结构定义隐私约束。
引入广义的KL散度分解引理，专用于标准和本地差分隐私定义，以实现统一的后悔分析。
采用基于假设检验和信息论界的方法，推导极小极大和贝叶斯后悔下界。
通过构造一对最优臂不同的环境，利用策略诱导分布之间的差异来建立下界。
通过在相邻输入下对结果分布之间的Kullback-Leibler散度进行有界处理，并通过ε引入隐私约束，推导后悔界。
采用子最优性间隙Δ以平衡后悔与隐私之间的权衡，从而获得紧致的渐近下界。

实验结果

研究问题

RQ1在差分隐私下，适用于多臂老虎机的基本隐私定义是什么，它们之间有何关联？
RQ2选择私有输入（例如奖励与结果）如何影响差分隐私老虎机算法的后悔？
RQ3ε-差分隐私老虎机算法可实现的最小后悔是多少，其如何随ε和T变化？
RQ4与非局部机制相比，局部差分隐私机制在后悔方面的性能成本如何？
RQ5当ε → 0时，后悔下界的渐近行为如何，这关于强隐私成本意味着什么？

主要发现

ε-差分隐私老虎机的极小极大后悔下界为非私有后悔的√(ln(ε+1)/(ε^(1+1/ε) ⋅ (ε²+1)^(1/ε)))倍。
在ε-差分隐私下，后悔下界退化为一个阶为√(ln(ε²+1)/(e^{6ε} ⋅ ε^{1+1/ε} ⋅ (ε+B)^{1/ε}))的乘法因子。
当ε → 0时，后悔下界趋于无穷大，表明近乎完美的隐私迫使算法随机探索，导致后悔量级为T。
当奖励不强制实施本地差分隐私时，对ε的依赖性更弱，表明此类设置下具有性能优势。
所推导的极小极大和贝叶斯后悔界是差分隐私老虎机的首次此类结果，为隐私-效用权衡提供了理论基础。
后悔界在对数因子范围内是紧致的，适用于具有有限方差和有界奖励的环境，明确依赖于Lipschitz常数L和奖励间隙Δ。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。