QUICK REVIEW

[论文解读] The Price of Differential Privacy For Online Learning

Naman Agarwal, Karan Singh|arXiv (Cornell University)|Jan 27, 2017

Advanced Bandit Algorithms Research参考文献 15被引用 24

一句话总结

本文提出了在完整信息与赌博机（bandit）设置下，用于在线线性优化的差分隐私算法，实现了近似最优的遗憾边界。在完整信息设置中，差分隐私仅带来常数阶的遗憾附加成本，当隐私参数 ε ≥ 1/√T 时，可视为‘免费’；在赌博机设置中，实现了 Õ(√T) 的遗憾，优于先前的 Õ(T²ᐟ³) 边界。

ABSTRACT

We design differentially private algorithms for the problem of online linear optimization in the full information and bandit settings with optimal $ ilde{O}(\sqrt{T})$ regret bounds. In the full-information setting, our results demonstrate that $ε$-differential privacy may be ensured for free -- in particular, the regret bounds scale as $O(\sqrt{T})+ ilde{O}\left(\frac{1}ε ight)$. For bandit linear optimization, and as a special case, for non-stochastic multi-armed bandits, the proposed algorithm achieves a regret of $ ilde{O}\left(\frac{1}ε\sqrt{T} ight)$, while the previously known best regret bound was $ ilde{O}\left(\frac{1}εT^{\frac{2}{3}} ight)$.

研究动机与目标

设计在完整信息与赌博机反馈设置下，遗憾接近最优的差分隐私在线学习算法。
解决一个开放问题：在完整信息设置下，ε-差分隐私是否可仅通过常数阶遗憾附加成本实现？
将差分隐私赌博机线性优化的现有遗憾边界从 Õ(T²ᐟ³/ε) 提升至 Õ(√T/ε)。
通过适应问题几何结构的正则化方法，证明隐私可实现为最小遗憾成本。
提出一种通用的约化技术，在赌博机设置下保持 Õ(√T) 遗憾，同时确保 ε-差分隐私。

提出的方法

提出一种新颖的差分隐私在线线性优化算法，通过注入参数为 λ = ‖Y‖₁/ε 的拉普拉斯噪声，确保 ε-差分隐私。
采用基于正则化的框架，自适应问题几何结构，避免先前工作中出现的与维度 N 的多项式依赖。
引入对噪声幅度有界的事件的条件分析，确保在高概率下遗憾的集中性。
通过使用经过校准的噪声的私有化 SCRiBLe 算法变体，将私有赌博机学习约化为非私有赌博机学习。
利用凸体的自洽性（self-concordance）性质，将遗憾以问题的几何结构形式界定。
采用一种修改后的遗憾分解方法，将噪声与损失向量的贡献分离，从而实现紧致的高概率边界。

实验结果

研究问题

RQ1在完整信息在线线性优化设置中，差分隐私是否可仅通过常数阶遗憾附加成本实现？
RQ2能否在差分隐私赌博机线性优化中实现 Õ(√T) 遗憾，与非私有最优边界一致？
RQ3能否通过几何正则化在私有在线学习算法中消除或减少对维度 N 的依赖？
RQ4在部分反馈的对抗性赌博机设置中，隐私 ε 与遗憾之间的最优权衡是什么？
RQ5能否通过一种通用约化技术，在赌博机反馈设置下保持 Õ(√T) 遗憾，同时确保 ε-差分隐私？

主要发现

在完整信息设置中，所提算法实现遗憾 O(√T) + Õ(1/ε)，表明当 ε ≥ 1/√T 时，差分隐私可视为‘免费’。
对于超立方体上的在线线性优化，遗憾边界从 Õ(√(NT)/ε) 提升至 Õ(√(NT) + N log²T / ε)，即使在 T < N/ε² 时也具有实际意义。
对于专家建议预测问题，遗憾边界为 O(√(T log N) + N log N log²T / ε)，优于先前的 Õ(√(T log N)/ε) 边界。
在赌博机设置中，首次实现 ε-差分隐私的线性赌博机算法，达到 Õ(√T) 遗憾，解决了 Smith & Thakurta (2013) 提出的开放问题。
对于非随机多臂赌博机，遗憾为 Õ(√(NT log N)/ε)，优于先前最优边界 Õ(NT²ᐟ³/ε)。
分析表明，即使在差分隐私约束下，算法仍保持对 T 的最优遗憾依赖，无 T²ᐟ³ 或更差的缩放。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。