[论文解读] LinkedIn's Audience Engagements API: A Privacy Preserving Data Analytics System at Scale
本文提出了一套大规模、保护隐私的分析系统,用于 LinkedIn 的 Audience Engagements API,该系统采用差分隐私算法,在保护用户数据的同时支持实时营销洞察。通过将集中式隐私预算管理服务与最先进的差分隐私算法相结合,该系统实现了严格的用户级隐私保证,在跨多个数据中心的分布式环境中,最终实现了 (34.9, 7×10⁻⁹)-DP 的月度隐私预算。
We present a privacy system that leverages differential privacy to protect LinkedIn members' data while also providing audience engagement insights to enable marketing analytics related applications. We detail the differentially private algorithms and other privacy safeguards used to provide results that can be used with existing real-time data analytics platforms, specifically with the open sourced Pinot system. Our privacy system provides user-level privacy guarantees. As part of our privacy system, we include a budget management service that enforces a strict differential privacy budget on the returned results to the analyst. This budget management service brings together the latest research in differential privacy into a product to maintain utility given a fixed differential privacy budget.
研究动机与目标
- 在确保成员隐私保护的前提下,为 LinkedIn 的营销人员提供实时、聚合的受众参与度分析。
- 应对差异攻击的风险,此类攻击可能即使从聚合数据中也能重新识别个体。
- 设计一个在差分隐私严格约束下平衡数据效用与隐私保护的系统。
- 实现一个可扩展的分布式隐私预算管理机制,以追踪并强制执行多个分析师和数据中心之间的隐私损失。
- 为实践者部署类似系统提供参数选择的透明度与指导。
提出的方法
- 利用差分隐私算法——特别是用于直方图和 Top-k 结果发布的算法——以确保用户级隐私保证。
- 与 Apache Pinot(一个开源的实时分布式 OLAP 数据存储系统)集成,以支持可扩展的低延迟分析。
- 采用双预算机制:每位分析师拥有“信息预算”和“调用预算”,每次查询结果均扣除相应预算以控制隐私损失。
- 应用差分隐私理论中的最新组合界,严格限制多次查询累积的隐私损失。
- 使用记忆化(memoization)和数据更新(data churn)技术,以限制纵向隐私泄露,尤其针对对同一记录的重复查询。
- 部署集中式隐私预算管理服务,实现跨多个数据中心的同步,以实时强制执行全局隐私预算。
实验结果
研究问题
- RQ1如何在类似 Apache Pinot 的实时、分布式 OLAP 系统中有效扩展差分隐私,以支持大规模分析?
- RQ2需要何种系统架构,才能在多个分析师和分布式数据中心之间端到端强制执行隐私预算?
- RQ3在生产环境中,如何选择隐私参数以在数据效用与强隐私保障之间取得平衡?
- RQ4在全球差分隐私与本地差分隐私模型之间,其在现实世界数据分析平台中的实际影响是什么?
- RQ5当同一用户数据随时间多次被查询时,如何缓解纵向隐私攻击?
主要发现
- 该系统实现了最终的 (34.9, 7×10⁻⁹)-DP 月度隐私保证,确保所有用户在所有查询中均获得强隐私保护。
- 通过每次查询设置 ε_per = 0.15 且 δ = 10⁻¹⁰,系统确保隐私泄露的概率低于 1/4 亿。
- 双预算机制(信息预算与调用预算)有效限制了分析师可提取的总信息量,防止隐私预算耗尽。
- 在 LinkedIn 实际数据上的实证评估表明,即使在严格的隐私约束下,系统仍能保持高数据效用。
- 与 Apache Pinot 的集成实现了低延迟、实时分析,同时不损害隐私或可扩展性。
- 该系统的设计支持参数的合理化与透明化,为其他组织在生产环境中采用差分隐私提供了实用框架。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。