Skip to main content
QUICK REVIEW

[论文解读] Generating Optimal Privacy-Protection Mechanisms via Machine Learning

Marco Romanelli, Catuscia Palamidessi|arXiv (Cornell University)|Apr 1, 2019
Privacy-Preserving Technologies in Data参考文献 26被引用 10
一句话总结

本文提出了一种受 GAN 启发的机器学习框架,用于生成针对敏感数据(尤其是位置数据)的最优差分隐私混淆机制。通过对抗性训练生成器以混淆数据,同时训练分类器以恢复原始数据,该方法实现了强大的隐私保护——通过较低的贝叶斯误差和优于平面拉普拉斯机制的隐私-效用权衡得到验证。

ABSTRACT

We consider the problem of obfuscating sensitive information while preserving utility. Given that an analytical solution is often not feasible because of un-scalability and because the background knowledge may be too complicated to determine, we propose an approach based on machine learning, inspired by the GANs (Generative Adversarial Networks) paradigm. The idea is to set up two nets: the generator, that tries to produce an optimal obfuscation mechanism to protect the data, and the classifier, that tries to de-obfuscate the data. By letting the two nets compete against each other, the mechanism improves its degree of protection, until an equilibrium is reached. We apply our method to the case of location privacy, and we perform experiments on synthetic data and on real data from the Gowalla dataset. We evaluate the privacy of the mechanism not only by its capacity to defeat the classificator, but also in terms of the Bayes error, which represents the strongest possible adversary. We compare the privacy-utility tradeoff of our method with that of the planar Laplace mechanism used in geo-indistinguishability, showing favorable results.

研究动机与目标

  • 为解决在分析解不可行(由于复杂背景知识)时设计可扩展、最优隐私机制的挑战。
  • 通过对抗性训练提升对敏感数据(尤其是位置数据)的隐私保护。
  • 通过生成器与分类器网络之间的竞争,优化混淆机制,实现有利的隐私-效用权衡。
  • 不仅评估对训练分类器的隐私鲁棒性,还评估对理论最强攻击者(以贝叶斯误差衡量)的鲁棒性。

提出的方法

  • 该框架采用两个神经网络:一个生成器负责生成混淆数据,一个分类器负责尝试恢复原始数据。
  • 生成器与分类器通过对抗性方式联合训练,其中生成器通过提升混淆能力以欺骗分类器。
  • 训练过程持续进行,直至达到均衡状态,此时生成器所生成的混淆机制对去匿名化攻击具有最大抵抗能力。
  • 隐私性能通过贝叶斯误差进行评估,代表任何攻击者可能达到的最小错误率,从而确保对最强攻击的鲁棒性。
  • 该方法在合成数据和真实世界 Gowalla 数据上应用于位置隐私,以验证性能表现。
  • 将隐私-效用权衡与平面拉普拉斯机制(地理不可区分性中的标准方法)进行对比。

实验结果

研究问题

  • RQ1基于机器学习的方法能否生成在隐私-效用权衡上优于分析解的混淆机制?
  • RQ2生成器与分类器之间的对抗性训练在生成鲁棒隐私保护混淆机制方面效果如何?
  • RQ3所提出方法在贝叶斯误差衡量下,对最强攻击者的抵抗能力达到何种程度?
  • RQ4在真实世界位置数据中,所提出方法的隐私-效用权衡与平面拉普拉斯机制相比如何?

主要发现

  • 所提出方法的贝叶斯误差低于平面拉普拉斯机制,表明其对最强攻击者的抵抗能力更强。
  • 对抗性训练框架成功生成了在保持高数据效用的同时提供强隐私保障的混淆机制。
  • 在合成数据和真实 Gowalla 数据上,该方法均表现出优于平面拉普拉斯机制的隐私-效用权衡。
  • 在类似 GAN 的训练过程中达到的均衡状态,使得混淆机制具有鲁棒性和可扩展性,即使在复杂背景知识下亦然。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。