Skip to main content
QUICK REVIEW

[论文解读] Collecting Telemetry Data Privately

Bolin Ding, Janardhan Kulkarni|arXiv (Cornell University)|Dec 5, 2017
Privacy-Preserving Technologies in Data参考文献 21被引用 264
一句话总结

本文开发了用于重复收集计数数据的本地差分隐私机制,引入 alpha-point rounding 和 memoization 以在时间上维持准确性和隐私,并由微软进行实际部署。

ABSTRACT

The collection and analysis of telemetry data from users' devices is routinely performed by many software companies. Telemetry collection leads to improved user experience but poses significant risks to users' privacy. Locally differentially private (LDP) algorithms have recently emerged as the main tool that allows data collectors to estimate various population statistics, while preserving privacy. The guarantees provided by such algorithms are typically very strong for a single round of telemetry collection, but degrade rapidly when telemetry is collected regularly. In particular, existing LDP algorithms are not suitable for repeated collection of counter data such as daily app usage statistics. In this paper, we develop new LDP mechanisms geared towards repeated collection of counter data, with formal privacy guarantees even after being executed for an arbitrarily long period of time. For two basic analytical tasks, mean estimation and histogram estimation, our LDP mechanisms for repeated data collection provide estimates with comparable or even the same accuracy as existing single-round LDP collection mechanisms. We conduct empirical evaluation on real-world counter datasets to verify our theoretical results. Our mechanisms have been deployed by Microsoft to collect telemetry across millions of devices.

研究动机与目标

  • 在持续遥测数据收集中阐明隐私风险以及随时间推移需要稳健的本地差分隐私(LDP)保证的动机。
  • 开发用于均值和直方图估计的简单的 1-bit 本地差分隐私机制。
  • 引入 alpha-point rounding 和 memoization 以实现隐私保护的持续数据收集。
  • 为重复收集提供正式的隐私保证并分析实际准确性。
  • 展示在数百万设备上的实证性能与实际部署。

提出的方法

  • 提出用于单轮均值估计的 1-bit 本地差分隐私机制 (1BitMean),并给出明确的输出公式。
  • 提出用于直方图估计的 d-bit 机制 (dBitFlip),通过区间采样和每区间的随机化实现。
  • 引入 alpha-point rounding 以在 memoization 之前离散化私有值而不偏离均值。
  • 利用离散化值的 memoization 实现持续数据收集,同时保留隐私保证。
  • 结合输出扰动以缓解用户行为大幅变动所带来的泄露风险。
  • 为单轮收集提供正式的 LDP 保证和概率误差界限,并在持续观察下给出扩展保证。

实验结果

研究问题

  • RQ1在重复数据收集设置下,如何在本地 LDP 下实现均值和直方图估计的高准确性?
  • RQ2简单、低通信量(1-bit)机制是否能够在 LDP 下为均值和直方图任务提供有竞争力的准确性?
  • RQ3alpha-point rounding 与 memoization 是否在实现持续隐私保证的同时保持无偏估计?
  • RQ4在持续收集下存在哪些正式隐私保证,它们如何与随时间的行为模式相关?
  • RQ5在真实的遥测数据上这些机制的表现如何,是否能扩展到数百万用户?

主要发现

  • 1-bit 均值估计机制 (1BitMean) 保持 epsilon-LDP,并给出可证明的准确性及可量化的误差界。
  • 基于 1-bit 的直方图机制 (dBitFlip) 保持 epsilon-LDP,在 k 个区间的直方图估计中实现有界误差。
  • alpha-point rounding 技术使 memoization 在持续计数数据收集中可用,且在期望均值上无偏且不牺牲单轮准确性。
  • 通过与 alpha-point rounding 的永久 memoization,在对具有相似模式的用户进行混合时提供对持续观察的隐私保证。
  • 在真实数据集上进行经验验证,并且在 Windows 10 Fall Creators Update 起就由微软部署到数百万设备。
  • 该框架支持实际部署并在具体场景中展示性能改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。