Skip to main content
QUICK REVIEW

[论文解读] Towards Practical Differential Privacy for SQL Queries

Noah M. Johnson, Joseph P. Near|arXiv (Cornell University)|Jun 28, 2017
Privacy-Preserving Technologies in Data参考文献 31被引用 26
一句话总结

本文提出弹性敏感度(elastic sensitivity),一种新颖且高效的局部敏感度近似方法,使复杂 SQL 查询(支持通用等值连接)能够实现实用的差分隐私。作者实现了 Flex 系统,该系统在真实世界 SQL 工作负载上实现了极低的(0.03%)性能开销,对来自大规模实证数据集的 9,862 个真实查询展示了高实用性。

ABSTRACT

Differential privacy promises to enable general data analytics while protecting individual privacy, but existing differential privacy mechanisms do not support the wide variety of features and databases used in real-world SQL-based analytics systems. This paper presents the first practical approach for differential privacy of SQL queries. Using 8.1 million real-world queries, we conduct an empirical study to determine the requirements for practical differential privacy, and discuss limitations of previous approaches in light of these requirements. To meet these requirements we propose elastic sensitivity, a novel method for approximating the local sensitivity of queries with general equijoins. We prove that elastic sensitivity is an upper bound on local sensitivity and can therefore be used to enforce differential privacy using any local sensitivity-based mechanism. We build FLEX, a practical end-to-end system to enforce differential privacy for SQL queries using elastic sensitivity. We demonstrate that FLEX is compatible with any existing database, can enforce differential privacy for real-world SQL queries, and incurs negligible (0.03%) performance overhead.

研究动机与目标

  • 为解决真实世界数据库中通用 SQL 分析的实用差分隐私方面的空白。
  • 基于对 810 万条真实世界 SQL 查询的实证分析,识别差分隐私系统的关键需求。
  • 设计一种可扩展、高效的局部敏感度近似方法,支持 SQL 中的复杂等值连接。
  • 构建并评估一个端到端系统 Flex,该系统在不修改底层数据库的前提下,对标准 SQL 查询强制实施差分隐私。
  • 对多样化的真实世界统计查询,实证评估差分隐私对查询实用性和性能影响。

提出的方法

  • 提出弹性敏感度作为局部敏感度的可靠上界,可与任何基于局部敏感度的差分隐私机制配合使用。
  • 该方法仅使用查询结构和预计算的数据库度量来计算敏感度,避免了每次查询的昂贵重新计算。
  • 通过建模单条元组扰动下查询输出的最大变化,弹性敏感度支持通用等值连接。
  • Flex 将弹性敏感度集成到中间件层,拦截 SQL 查询,基于敏感度上界注入噪声,并返回具有差分隐私保证的结果。
  • 该系统设计为与任何现有 SQL 数据库兼容,无需修改底层 DBMS。
  • 该方法使用拉普拉斯机制,将噪声规模调整为弹性敏感度值,以确保差分隐私。

实验结果

研究问题

  • RQ1影响实用差分隐私系统设计的真实世界 SQL 查询的关键特征是什么?
  • RQ2能否为包含等值连接的复杂 SQL 查询高效计算局部敏感度的近似值?
  • RQ3差分隐私对真实世界工作负载上的查询实用性和性能有何影响?
  • RQ4能否在不修改底层数据库的前提下,对标准 SQL 查询强制实施差分隐私?
  • RQ5在真实世界工作负载上大规模强制实施差分隐私的性能开销是多少?

主要发现

  • 对 810 万条真实世界查询的实证研究发现,以往评估工作所用查询不具备代表性,因此需要为实用系统提出新的设计需求。
  • 弹性敏感度被证明是局部敏感度的有效上界,当与任何基于局部敏感度的机制结合使用时,可确保形式化的差分隐私保证。
  • Flex 在 9,862 个真实世界统计查询上成功强制实施了差分隐私,性能开销可忽略不计(0.03%)。
  • 该系统在大多数查询中实现了高实用性,尤其在群体规模较大的查询中表现更优,这是首次对真实工作负载上差分隐私的大规模实证评估。
  • 弹性敏感度实现了高效的敏感度计算,无需对每个查询进行数据库扫描或复杂预处理。
  • 该方法已被 Uber 用于内部数据 analytics,验证了其在生产环境中的实用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。