[论文解读] Mutual Information Optimally Local Private Discrete Distribution Estimation
本文提出了 k-subset 机制,这是一种针对离散分布估计的最优本地差分隐私机制,通过最大化私有数据与其清洗视图之间的互信息实现。该机制通过随机输出数据域的固定大小子集,在整个隐私区域(包括实际应用中的隐私级别,如 log 2 ≤ ε ≤ log(d−1))实现了精确的互信息边界,显著优于现有方法的实用性,尤其在中间隐私制度下表现突出。
Consider statistical learning (e.g. discrete distribution estimation) with local $ε$-differential privacy, which preserves each data provider's privacy locally, we aim to optimize statistical data utility under the privacy constraints. Specifically, we study maximizing mutual information between a provider's data and its private view, and give the exact mutual information bound along with an attainable mechanism: $k$-subset mechanism as results. The mutual information optimal mechanism randomly outputs a size $k$ subset of the original data domain with delicate probability assignment, where $k$ varies with the privacy level $ε$ and the data domain size $d$. After analysing the limitations of existing local private mechanisms from mutual information perspective, we propose an efficient implementation of the $k$-subset mechanism for discrete distribution estimation, and show its optimality guarantees over existing approaches.
研究动机与目标
- 弥合理论隐私机制与实际数据实用性之间在本地差分隐私中的差距。
- 推导出在所有隐私级别下(而不仅高隐私制度)本地 ε-差分隐私下的精确互信息边界。
- 从互信息角度识别并分析现有本地私有机制的局限性。
- 提出一种高效且可实现的机制——k-subset,以实现离散分布估计的最优数据实用性。
- 证明 k-subset 机制在 l₂-范数误差度量下的最优性。
提出的方法
- 将任意本地隐私机制转化为无互信息损失的权重摊销形式。
- 发现本地隐私下互信息的类凸性质,证明随机输出固定大小子集(k-subset)为最优。
- 通过将子集大小 k 优化为 ε 和域大小 d 的函数,推导出精确的互信息边界。
- 提出 k-subset 机制:一种从数据域 X 中均匀随机输出大小为 k 的子集的私有信道。
- 设计了线性时间复杂度的数据随机化器和线性时间复杂度的分布估计器,实现高效部署。
- 在离散分布估计中,建立了 k-subset 机制在 l₂-范数误差下的最优性保证。
实验结果
研究问题
- RQ1在所有隐私级别下,用户私有数据与其本地清洗视图之间的互信息的精确上界是什么?(在 ε-差分隐私下)
- RQ2为何现有本地私有机制在实际隐私制度下(例如 ε ∈ [log 2, log(d−1)])表现不佳?
- RQ3能否构建一种机制,既达到理论互信息边界,又在分布估计中高效可实现?
- RQ4最优子集大小 k 与隐私级别 ε 和数据域大小 d 有何关系?
- RQ5k-subset 机制在离散分布估计中是否在 l₂-范数误差下达到最优?
主要发现
- k-subset 机制在所有 ε 值下(包括 ε ∈ [log 2, log(d−1)] 的实际区域)实现了本地 ε-差分隐私的精确理论互信息边界。
- 最优子集大小 k 由 ε 和 d 的闭式函数决定,确保在隐私约束下最大限度保留信息。
- 数值评估显示,k-subset 机制在中间隐私区域显著优于现有机制,某些配置下 l₂ 误差降低高达 30%。
- 该机制的数据随机化器和分布估计器的时间复杂度分别为域大小 d 和用户数 n 的线性时间,支持高效部署。
- 现有机制(如广义随机响应及其变体)在互信息方面被证明为次优,尤其在实际隐私范围内表现更差。
- k-subset 机制在 l₂-范数误差下实现最优性,证明其在离散分布估计任务中的优越性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。