[論文レビュー] Learning discrete distributions: user vs item-level privacy
本稿では、各ユーザーが複数のサンプルを寄与するユーザー・レベルのプライバシーを満たす離散分布の学習のための新たな微分プライバシー機構を提案する。ユーザー・レベルのノイズ注入と適応的集約を活用することで、標準的なラプラス/ガウス機構と比較して、ユーザーの複雑さを $ ilde{ heta}(ackslashackslashmathrm{sqrt}ackslashackslashmathrm extbackslash{m})$ 倍低減し、主要な設定においてほぼ最適性を達成する。
Much of the literature on differential privacy focuses on item-level privacy, where loosely speaking, the goal is to provide privacy per item or training example. However, recently many practical applications such as federated learning require preserving privacy for all items of a single user, which is much harder to achieve. Therefore understanding the theoretical limit of user-level privacy becomes crucial. We study the fundamental problem of learning discrete distributions over $k$ symbols with user-level differential privacy. If each user has $m$ samples, we show that straightforward applications of Laplace or Gaussian mechanisms require the number of users to be $\mathcal{O}(k/(m\alpha^2) + k/\epsilon\alpha)$ to achieve an $\ell_1$ distance of $\alpha$ between the true and estimated distributions, with the privacy-induced penalty $k/\epsilon\alpha$ independent of the number of samples per user $m$. Moreover, we show that any mechanism that only operates on the final aggregate counts should require a user complexity of the same order. We then propose a mechanism such that the number of users scales as $ ilde{\mathcal{O}}(k/(m\alpha^2) + k/\sqrt{m}\epsilon\alpha)$ and hence the privacy penalty is $ ilde{\Theta}(\sqrt{m})$ times smaller compared to the standard mechanisms in certain settings of interest. We further show that the proposed mechanism is nearly-optimal under certain regimes. We also propose general techniques for obtaining lower bounds on restricted differentially private estimators and a lower bound on the total variation between binomial distributions, both of which might be of independent interest.
研究の動機と目的
- 主にアイテム・レベルのプライバシーに焦点を当てた微分プライバシーの文献におけるギャップを埋める。実世界の応用例(例:フェデレーテッドラーニング)ではユーザー・レベルのプライバシーが求められる。
- 各ユーザーが複数のサンプルを寄与する状況下で、ユーザー・レベルの微分プライバシーのもとでの離散分布の学習の根本的限界を調査する。
- 標準的手法と比較して、必要なユーザー数を削減する機構の開発。特に、中程度から高いユーザーあたりのサンプル数を持つ設定で有効である。
- 制限付き微分プライバシー推定器のユーザー複雑さに関する理論的下界と、二項分布間の全変動距離に関する下界を確立する。
- 特定のパrameter設定下で、提案された機構がユーザー複雑さの観点でほぼ最適であることを示す。
提案手法
- アイテム・レベルではなくユーザー・レベルでノイズを適用する新しい微分プライバシー機構を提案。集計カウントに適した変更されたラプラス機構を用いる。
- 二段階の集約プロセスを導入:まず各ユーザーが各シンボルのプライバシー保護済みカウントを報告し、次にサーバーが適切にスケーリングされたノイズを加えて集約し、ユーザー・レベルのプライバシーを確保する。
- ノイズスケールを $\tilde{\mathcal{O}}(\sqrt{m}/\epsilon)$ に比例させる。これにより、$m$ に依存しない標準的手法($\mathcal{O}(k/\epsilon\alpha)$)と比較して、プライバシーに起因するペナルティを低減する。
- 集中不等式と二項分布の尾部バウンドを用いて推定誤差を分析し、真の分布と推定分布の間の $\ell_1$ 距離が $\alpha$ 以下になるように保証する。
- 制限付き微分プライバシー推定器の下界を証明する一般的手法を導出し、ユーザー入力に対する出力分布の感度を分析することで実現する。
- 二項分布間の全変動距離に関する新しい下界を確立し、提案された機構のほぼ最適性を証明するために用いる。
実験結果
リサーチクエスチョン
- RQ1各ユーザーが $m$ 個のサンプルを寄与する場合、$k$ 個のシンボルからなる離散分布をユーザー・レベルの微分プライバシーのもとで学習するにあたり、必要な根本的ユーザー複雑さはどの程度か?
- RQ2ラプラスやガウスのような標準的手法では、$m$, $k$, $\alpha$, $\epsilon$ に応じて必要なユーザー数はどのようにスケーリングされるか?
- RQ3プライバシーに起因するペナルティが $m$ に対して非線形にスケーリングされる機構を設計可能か?これにより必要なユーザー数を削減できるか?
- RQ4特定のパrameter設定下で、提案された機構はユーザー複雑さの観点でほぼ最適か?
- RQ5制限付き微分プライバシー推定器のユーザー複雑さに関する下界を導出するための一般的な技術は何か?
主な発見
- ラプラスやガウスのような標準的手法では、$\mathcal{O}(k/(m\alpha^2) + k/\epsilon\alpha)$ 個のユーザーが必要であり、プライバシーのペナルティは $m$ に依存しない。
- 最終集計カウントのみを処理する機構では、標準的手法と同程度のユーザー複雑さを必要とすることが示され、このような手法のユーザー複雑さに関する下界が確立される。
- 提案された機構により、ユーザー複雑さは $\tilde{\mathcal{O}}(k/(m\alpha^2) + k/\sqrt{m}\epsilon\alpha)$ に低減され、プライバシーに起因するペナルティが $\tilde{\Theta}(\sqrt{m})$ 倍改善される。
- $m \gg \epsilon^2\alpha^2k^2$ のような設定では、機構がほぼ最適であることが示され、プライバシーコストが $m$ に対して非線形にスケーリングされる。
- 二項分布間の全変動距離に関する新しい下界が導出され、統計的推論やプライバシー解析において独立した関心をもつ。
- 制限付き微分プライバシー推定器の下界を証明する一般的手法が開発され、ユーザー・レベルのプライバシー機構の分析をより厳密に行えるようになる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。