Skip to main content
QUICK REVIEW

[論文レビュー] Differentially Private Continual Releases of Streaming Frequency Moment Estimations

Alessandro Epasto, Jieming Mao|arXiv (Cornell University)|Jan 1, 2023
Privacy-Preserving Technologies in Data被引用数 1
ひとこと要約

本稿は、ストリーミング ℓp 頻度モーメント推定のための、初めての微分プライバシー保証付き継続的リリースアルゴリズムを提示する。これは (1+η)-近似を達成し、多対数的加法誤差とほぼ最適な空間計算量を実現する。本稿は、微分プライバシーに適応された新規のスムーズヒストグラムフレームワークを活用し、代表的なストリーミング問題(例:異なる要素の数え上げ、頻度モーメント)におけるプライベートな継続的およびスライディングウィンドウ分析を可能にする。

ABSTRACT

The streaming model of computation is a popular approach for working with large-scale data. In this setting, there is a stream of items and the goal is to compute the desired quantities (usually data statistics) while making a single pass through the stream and using as little space as possible. Motivated by the importance of data privacy, we develop differentially private streaming algorithms under the continual release setting, where the union of outputs of the algorithm at every timestamp must be differentially private. Specifically, we study the fundamental $\ell_p$ $(p\in [0,+\infty))$ frequency moment estimation problem under this setting, and give an $\varepsilon$-DP algorithm that achieves $(1+η)$-relative approximation $(\forall η\in(0,1))$ with $\mathrm{poly}\log(Tn)$ additive error and uses $\mathrm{poly}\log(Tn)\cdot \max(1, n^{1-2/p})$ space, where $T$ is the length of the stream and $n$ is the size of the universe of elements. Our space is near optimal up to poly-logarithmic factors even in the non-private setting. To obtain our results, we first reduce several primitives under the differentially private continual release model, such as counting distinct elements, heavy hitters and counting low frequency elements, to the simpler, counting/summing problems in the same setting. Based on these primitives, we develop a differentially private continual release level set estimation approach to address the $\ell_p$ frequency moment estimation problem. We also provide a simple extension of our results to the harder sliding window model, where the statistics must be maintained over the past $W$ data items.

研究の動機と目的

  • 時間経過にわたるすべての出力に対してプライバシーを保証する、継続的リリースをサポートする微分プライバシー保証付きストリーミングアルゴリズムの開発。
  • 継続的リリースモデル下での微分プライバシーにおける基本的 ℓp 頻度モーメント推定問題の解決。
  • より複雑なスライディングウィンドウモデルへのフレームワークの拡張、ここでは最近のデータのみが保持される。
  • 強力なプライバシーと正確性の保証を維持しつつ、ほぼ最適な空間計算量を達成すること。
  • プライベートで最新のデータ分析が不可欠な実世界の応用(例:Privacy Sandbox)に実用的なソリューションを提供すること。

提案手法

  • 複雑なプライベートストリーミング問題(例:異なる要素、ヘビーホイッタ)を、継続的リリースモデル下での単純なカウント/合計問題に還元する。
  • スライディングウィンドウ上でのプライベート近似を維持するための、微分プライバシーに適合した新しいプライベートスムーズヒストグラムフレームワークを導入する。
  • 時間経過に伴う影響の減衰をモデル化するための (ζ, β)-スムーズ関数を用い、重複するアルゴリズムインスタンス間でのプライバシー合成を可能にする。
  • ε′-DP ストリーミングアルゴリズムを基本コンponentとして用い、階層的構造により合成することで、スライディングウィンドウモデル下で ε-DP を達成する。
  • 高度なプライバシーの強化および合成定理を適用し、複数のアルゴリズムインスタンスにわたるエンドツーエンドのプライバシー損失を制限する。
  • 理論的保証と実用的な空間効率性を統合し、T および |U| に関して多対数的空間使用量を達成する。

実験結果

リサーチクエスチョン

  • RQ1微分プライバシー保証付き継続的リリースアルゴリズムを、(1+η)-近似とほぼ最適な空間計算量を達成する ℓp 頻度モーメント推定に設計可能か?
  • RQ2スムーズヒストグラムフレームワークをどのように調整すれば、継続的リリース設定下での微分プライバシーを確保できるか?
  • RQ3スライディングウィンドウモデル下での微分プライバシー保証付き ℓp 頻度モーメント推定における、空間計算量・正確性・プライバシーのトレードオフは何か?
  • RQ4既存の非プライベートストリーミングアルゴリズムを、最小限のオーバーヘッドでプライベート継続的リリースモデルへ拡張可能か?
  • RQ5ストリーミングおよびスライディングウィンドウ設定下での微分プライバシー保証付き頻度モーメント推定における、空間計算量の理論的限界は何か?

主な発見

  • 本稿は、(1+η)-相対的近似と多対数的加法誤差 poly log(T n) を達成する ε-DP アルゴリズムを提示する。空間計算量は poly log(T n) · max(1, n1−2/p) である。
  • 空間計算量はほぼ最適であり、既知の非プライベートの下界と多対数的要因を除いて一致する。
  • フレームワークにより、異なる要素、ヘビーホイッタ、低頻度カウントのプライベート継続的リリースが、合計プリミティブへの還元によって可能になる。
  • スライディングウィンドウモデルでは、非負の数の合計に対して (1+η, O(log(T/(ηξ)) log(T)/(εη³)))-近似を達成し、空間計算量は O(log(T)/η) である。
  • ℓ2 頻度モーメントに対しては、誤差境界が η∥S∥²₂ + O((log(T/(ξη)) + log|U|)² log²(T)/(ε²η⁸) · log⁵(T) · log²(log(T/ξ)+log|U|)/(ξη)) であり、空間計算量は O((log(T/(ξη)) + log|U|)/η⁴ · log²(T)) である。
  • 一般の ℓp 頻度モーメント(p > 0)に対しては、(1+η, (log(T|U|/ξ)/(ηε))^{O(p)})-近似を達成し、空間計算量は φ · (log(T|U|/ξ)/(ηε))^{O(p)} で抑えられる。ここで φ = max(1, |U|^{1−2/p}) である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。