Skip to main content
QUICK REVIEW

[论文解读] D3p -- A Python Package for Differentially-Private Probabilistic Programming

Lukas Prediger, Niki Loppi|arXiv (Cornell University)|Mar 22, 2021
Privacy-Preserving Technologies in Data参考文献 41被引用 3
一句话总结

d3p 是一个高性能的 Python 软件包,通过将差分隐私变分推断(DP-VI)与 NumPyro 框架集成,实现了差分隐私的概率编程。它在 GPU 加速模型上的训练速度相比 TensorFlow Privacy 提升了约 10 倍,同时通过紧密的隐私会计和 GPU 优化采样,实现了严格隐私保障下的灵活、用户自定义概率模型支持。

ABSTRACT

We present d3p, a software package designed to help fielding runtime efficient widely-applicable Bayesian inference under differential privacy guarantees. d3p achieves general applicability to a wide range of probabilistic modelling problems by implementing the differentially private variational inference algorithm, allowing users to fit any parametric probabilistic model with a differentiable density function. d3p adopts the probabilistic programming paradigm as a powerful way for the user to flexibly define such models. We demonstrate the use of our software on a hierarchical logistic regression example, showing the expressiveness of the modelling approach as well as the ease of running the parameter inference. We also perform an empirical evaluation of the runtime of the private inference on a complex model and find a $\sim$10 fold speed-up compared to an implementation using TensorFlow Privacy.

研究动机与目标

  • 解决现有主流框架中缺乏高效、集成化的差分隐私概率推断工具的问题。
  • 通过提供用户友好、高性能的实现,降低实践者采用隐私保护建模的门槛。
  • 在表格数据上实现端到端差分隐私保障下的快速原型设计与迭代开发。
  • 通过 GPU 加速和基于改进的 CUDA-Shuffle 算法的高效小批量采样,优化性能。
  • 通过差分隐私下的变分推断,支持通用参数化模型与可微密度函数。

提出的方法

  • 作为核心推理引擎,实现差分隐私双重随机变分推断(DP-VI)。
  • 与 NumPyro 概率编程框架集成,允许使用 Python 语法灵活指定模型。
  • 利用 JAX 框架实现自动微分和 GPU 加速,以获得高性能运行时性能。
  • 采用最先进的隐私会计方法,计算隐私参数(ε, δ)的紧致边界,以最大化模型效用。
  • 通过改进的 CUDA-Shuffle 算法优化小批量采样,实现高效的 GPU 采样。
  • 为 GPU 优化的采样例程提供概率运行时分析,确保在性能关键场景下的可靠性。

实验结果

研究问题

  • RQ1能否构建一个通用的高性能软件包,使用户以最小努力实现差分隐私概率推断?
  • RQ2与现有的基于 TensorFlow 的解决方案相比,JAX 和 GPU 优化的 DP-VI 实现性能如何?
  • RQ3在强制实现端到端差分隐私的前提下,概率编程的表达能力能在多大程度上得以保留?
  • RQ4在实践中,将紧密的隐私会计与可微概率模型框架集成的实效性如何?
  • RQ5通过 GPU 优化的隐私保护小批量采样,在真实模型中能实现多大的性能提升?

主要发现

  • 与基于 TensorFlow Privacy 的相同 DP-VI 模型相比,d3p 在现代 GPU 上实现了约 10 倍的训练时间加速。
  • d3p 实现的测试数据对数似然性能与原始 DP-VI 代码一致或略优,且运行结果方差显著降低。
  • 该框架允许用户使用标准 NumPyro 语法,仅需极少修改即可定义复杂模型,如分层逻辑回归和变分自编码器。
  • 采用改进的 CUDA-Shuffle 算法实现了高效的 GPU 小批量采样,为整体性能提升做出贡献。
  • 紧密的隐私会计集成使得在相同隐私预算下,相比精度较低的会计方法,模型效用更高。
  • 该软件通过消除用户手动封装模型以使用 DP-SGD 或实现自定义 DP 层的需求,显著降低了实现负担。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。