Skip to main content
QUICK REVIEW

[论文解读] Learning discrete distributions: user vs item-level privacy

Yuhan Liu, Ananda Theertha Suresh|arXiv (Cornell University)|Jan 1, 2020
Privacy-Preserving Technologies in Data被引用 8
一句话总结

该论文提出了一种新颖的差分隐私机制,用于在用户级私密性保护下学习离散分布,其中每位用户贡献多个样本。通过利用用户级噪声注入和自适应聚合,与标准拉普拉斯/高斯机制相比,其用户复杂度降低了$\tilde{\Theta}(\sqrt{m})$倍,在关键参数区间内实现了近似最优性能。

ABSTRACT

Much of the literature on differential privacy focuses on item-level privacy, where loosely speaking, the goal is to provide privacy per item or training example. However, recently many practical applications such as federated learning require preserving privacy for all items of a single user, which is much harder to achieve. Therefore understanding the theoretical limit of user-level privacy becomes crucial. We study the fundamental problem of learning discrete distributions over $k$ symbols with user-level differential privacy. If each user has $m$ samples, we show that straightforward applications of Laplace or Gaussian mechanisms require the number of users to be $\mathcal{O}(k/(m\alpha^2) + k/\epsilon\alpha)$ to achieve an $\ell_1$ distance of $\alpha$ between the true and estimated distributions, with the privacy-induced penalty $k/\epsilon\alpha$ independent of the number of samples per user $m$. Moreover, we show that any mechanism that only operates on the final aggregate counts should require a user complexity of the same order. We then propose a mechanism such that the number of users scales as $ ilde{\mathcal{O}}(k/(m\alpha^2) + k/\sqrt{m}\epsilon\alpha)$ and hence the privacy penalty is $ ilde{\Theta}(\sqrt{m})$ times smaller compared to the standard mechanisms in certain settings of interest. We further show that the proposed mechanism is nearly-optimal under certain regimes. We also propose general techniques for obtaining lower bounds on restricted differentially private estimators and a lower bound on the total variation between binomial distributions, both of which might be of independent interest.

研究动机与目标

  • 弥合差分隐私文献中主要关注条目级私密性的空白,而现实世界应用如联邦学习需要用户级私密性。
  • 研究当每位用户贡献多个样本时,在用户级差分私密性下学习离散分布的根本限制。
  • 设计一种机制,与标准方法相比可减少所需用户数,尤其在每用户样本量中等至较高的场景下。
  • 建立受限差分私密估计器的用户复杂度下限,以及二项分布之间总变差距离的下限。
  • 在特定参数区间内证明所提机制的近似最优性。

提出的方法

  • 提出一种新型差分私密机制,通过在用户级别而非条目级别应用噪声来处理用户级数据,使用一种针对聚合计数量身定制的改进拉普拉斯机制。
  • 引入两阶段聚合过程:首先,每位用户报告每个符号的私有化计数;其次,服务器以校准的噪声聚合这些计数,以确保用户级私密性。
  • 使用与$\tilde{\mathcal{O}}(\sqrt{m}/\epsilon)$成比例的噪声尺度,与标准机制中独立于$m$的$\mathcal{O}(k/\epsilon\alpha)$相比,降低了隐私带来的惩罚。
  • 利用集中极限不等式和二项尾部界限分析估计误差,确保真实分布与估计分布之间的$\ell_1$距离为$\alpha$。
  • 通过分析输出分布对用户输入的敏感性,提出一种证明受限差分私密估计器下限的一般技术。
  • 建立两个二项分布之间总变差距离的新下限,用于证明所提机制的近似最优性。

实验结果

研究问题

  • RQ1当每位用户贡献$m$个样本时,在用户级差分私密性下学习$k$个符号的离散分布,其根本用户复杂度是多少?
  • RQ2在标准机制(如拉普拉斯或高斯)中,所需用户数如何随$m$、$k$、$\alpha$和$\epsilon$变化?
  • RQ3能否设计一种机制,使得隐私带来的惩罚随$m$亚线性增长,从而减少所需用户数?
  • RQ4在某些参数区间内,所提机制在用户复杂度方面是否近似最优?
  • RQ5可用于推导受限差分私密估计器用户复杂度下限的一般技术有哪些?

主要发现

  • 标准机制(如拉普拉斯或高斯)需要$\mathcal{O}(k/(m\alpha^2) + k/\epsilon\alpha)$名用户才能实现$\ell_1$距离$\alpha$,其隐私惩罚与$m$无关。
  • 任何仅基于最终聚合计数运行的机制,其用户复杂度必须与标准机制处于同一数量级,从而为这类方法建立了用户复杂度的下限。
  • 所提机制将用户复杂度降低至$\tilde{\mathcal{O}}(k/(m\alpha^2) + k/\sqrt{m}\epsilon\alpha)$,隐私惩罚降低了$\tilde{\Theta}(\sqrt{m})$倍。
  • 该机制在$m \gg \epsilon^2\alpha^2k^2$的参数区间内被证明是近似最优的,意味着隐私成本随$m$亚线性增长。
  • 推导出二项分布之间总变差距离的新下限,该结果对统计推断和隐私分析具有独立意义。
  • 开发了一种证明受限差分私密估计器用户复杂度下限的一般技术,使用户级私密性机制的分析更加紧密。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。