Skip to main content
QUICK REVIEW

[論文レビュー] LinkedIn's Audience Engagements API: A Privacy Preserving Data Analytics System at Scale

Ryan Rogers, Subbu Subramaniam|arXiv (Cornell University)|Feb 14, 2020
Privacy-Preserving Technologies in Data参考文献 21被引用数 28
ひとこと要約

この論文は、LinkedInのAudience Engagements API向けに、大規模かつプライバシーを守る分析システムを提示している。このシステムは、ユーザーのデータを保護しつつ、リアルタイムのマーケティングインサイトを可能にするため、微分プライバシー(differential privacy, DP)アルゴリズムを用いている。最新のDPアルゴリズムと中央集権的なプライバシーバンク管理サービスを統合することで、システムは厳密なユーザー単位のプライバシー保証を実現し、分散型データセンター全体で月間の最終的なプライバシーバンクを(34.9, 7×10⁻⁹)-DPに保っている。

ABSTRACT

We present a privacy system that leverages differential privacy to protect LinkedIn members' data while also providing audience engagement insights to enable marketing analytics related applications. We detail the differentially private algorithms and other privacy safeguards used to provide results that can be used with existing real-time data analytics platforms, specifically with the open sourced Pinot system. Our privacy system provides user-level privacy guarantees. As part of our privacy system, we include a budget management service that enforces a strict differential privacy budget on the returned results to the analyst. This budget management service brings together the latest research in differential privacy into a product to maintain utility given a fixed differential privacy budget.

研究の動機と目的

  • LinkedInのマーケターがリアルタイムで集計されたオーディエンス参加行動の分析を可能にしつつ、メンバーのプライバシーを強固に保護すること。
  • 集計データからでも個人を再識別できる可能性がある差分攻撃(differencing attacks)のリスクに対処すること。
  • 微分プライバシーの下で、データの有用性と厳密なプライバシー制約の両立を図るシステムの設計。
  • 複数のアナリストと分散型データセンターをカバーする、スケーラブルで分散型のプライバシーバンク管理システムを実装し、プライバシーロスを追跡・強制すること。
  • 類似するシステムを導入する実務家に対して、パrameter選定に関する透明性とガイダンスを提供すること。

提案手法

  • ヒストограмとトップ-k結果の公開に特化した微分プライバシー(DP)アルゴリズムを活用し、ユーザー単位のプライバシー保証を確保する。
  • リアルタイムで分散型OLAPデータストレージを提供するオープンソースのApache Pinotと統合し、大規模な低遅延分析を実現する。
  • 「情報バンク」と「コールバンク」の二重バンクメカニズムを採用。各クエリごとに分析者ごとにプライバシーロスを制御するため、それぞれのバンクから差し引かれる。
  • 微分プライバシー理論の最新の合成境界を適用し、複数クエリにわたる累積的なプライバシーロスをきめ細かく制限する。
  • メモ化(memoization)とデータの変動(data churn)を活用し、特に同じレコードに対して繰り返しクエリが発行される場合の縦断的プライバシーレイク(longitudinal privacy leakage)を低減する。
  • 複数のデータセンターにまたがるリアルタイムのグローバルプライバシーバンクを強制するために、中央集権的なプライバシーバンク管理サービスを導入する。

実験結果

リサーチクエスチョン

  • RQ1Apache Pinotのようなリアルタイムで分散型のOLAPシステムにおいて、微分プライバシーをどのようにスケーリングし、大規模な分析を可能にするか?
  • RQ2複数のアナリストと分散型データセンターをカバーするエンドツーエンドのプライバシーバンクを強制するためのシステムアーキテクチャはどのようなものか?
  • RQ3本番環境において、有用性と強固なプライバシー保証の両立を図るために、プライバシーパラメータをどのように選定すべきか?
  • RQ4実世界のデータ分析プラットフォームにおいて、グローバル微分プライバシーとローカル微分プライバシーのモデルを比較した場合の実用的影響は何か?
  • RQ5同じユーザーのデータが時間経過とともに繰り返しクエリされる状況で、縦断的プライバシーや攻撃をどのように緩和できるか?

主な発見

  • システムは月間の最終的な(34.9, 7×10⁻⁹)-DPプライバシーバンクを達成しており、すべてのクエリにおいてすべてのユーザーに対して強いプライバシー保護を保証している。
  • クエリごとにε_per = 0.15、δ = 10⁻¹⁰を設定することで、プライバシーブレッチの確率が4億分の1未満であることが保証されている。
  • 情報バンクとコールバンクの二重バンクメカニズムにより、分析者が抽出できる総合的な情報量が効果的に制限され、プライバシーバンクの枯渇を防いでいる。
  • LinkedInの実データを用いた実証評価では、厳密なプライバシー制約下でも高いデータ有用性が維持されていることが示された。
  • Apache Pinotとの統合により、プライバシーやスケーラビリティを損なわず、低遅延でリアルタイムの分析が可能になった。
  • システムの設計はパrameterの合理的な選定と透明性を可能としており、他の組織が本番環境で微分プライバシーを採用するための実用的フレームワークを提供している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。