[論文レビュー] Practical Differentially Private Top-$k$ Selection with Pay-what-you-get Composition
本稿では、データドメインの事前知識を必要とせずに、実用的な微分プライバシー付きのトップ-$k$ 選択アルゴリズムを提示する。本稿は、実際の出力サイズに基づいてプライバシー予算を動的に調整する「支払いはあなたが得た分だけ」(pay-what-you-get)の組み合わせフレームワークを導入し、プライバシー予算の使用を最適化することで、制限なしと制限ありの感度モデルの両方において、より高い実用性とスケーラビリティを実現した、ユーザー単位のプライバシー保護付きトップ-$k$ クエリを効率的に行えるようにする。
We study the problem of top-$k$ selection over a large domain universe subject to user-level differential privacy. Typically, the exponential mechanism or report noisy max are the algorithms used to solve this problem. However, these algorithms require querying the database for the count of each domain element. We focus on the setting where the data domain is unknown, which is different than the setting of frequent itemsets where an apriori type algorithm can help prune the space of domain elements to query. We design algorithms that ensures (approximate) $(ε,δ>0)$-differential privacy and only needs access to the true top-$\bar{k}$ elements from the data for any chosen $\bar{k} \geq k$. This is a highly desirable feature for making differential privacy practical, since the algorithms require no knowledge of the domain. We consider both the setting where a user's data can modify an arbitrary number of counts by at most 1, i.e. unrestricted sensitivity, and the setting where a user's data can modify at most some small, fixed number of counts by at most 1, i.e. restricted sensitivity. Additionally, we provide a pay-what-you-get privacy composition bound for our algorithms. That is, our algorithms might return fewer than $k$ elements when the top-$k$ elements are queried, but the overall privacy budget only decreases by the size of the outcome set.
研究の動機と目的
- データドメインの事前知識なしに、未知の大きなデータドメインにおいて微分プライバシー付きのトップ-$k$ 選択を可能にすること。
- 1人のユーザーが複数のカウントに影響を与える可能性がある(制限なしの感度)か、あるいは制限付きのカウント(制限ありの感度)にしか影響しない(ユーザー単位のプライバシー)状況をサポートすること。
- 常に $k$ 個の要素が返されるものと仮定するのではなく、実際に返された要素数に基づいてプライバシー予算を動的に調整することで、プライバシー予算の使用を最小限に抑えること。
- データの事前処理や構造的仮定なしに、既存のデータパイプラインにシームレスに統合できる実用的なアルゴリズムを設計すること。
- トップ-$k$ 選択における微分プライバシーの組み合わせ境界を改善し、同じプライバシー予算でより高い実用性を実現すること。
提案手法
- トップ-$\bar{k}$ 個の要素のみをクエリする限定的指数的メカニズム(LEM)を提案し、$\bar{k} \geq k$ とすることで、高価なクエリの数を削減する。
- Gumbelノイズを用いたデータ依存のしきい値戦略を導入し、プライバシーを保ちつつトップ-$k$ 要素を選択する。
- 「支払いはあなたが得た分だけ」プライバシーの組み合わせルールを採用:プライバシー予算は、$k$ ではなく実際に出力された集合のサイズにのみ減少する。
- トップ-$k$ 選択の文脈に特化した高度な組み合わせ技術を用い、標準的な組み合わせ境界を上回る性能を実現する。
- Gumbelノイズを、プライバシー制約下でもトップ-$k$ 選択の高確率での正しさを保証する新しい方法で応用する。
- 制限なしと制限ありの感度設定の両方をカバーするフレームワークを提供し、それぞれ異なるプライバシー予算スケーリング($\approx \sqrt{k}$ と $\approx \Delta$)を実現する。
実験結果
リサーチクエスチョン
- RQ1未知の大きなデータドメインにおいて、ドメインの事前知識なしにトップ-$k$ 選択を微分プライバシーで行うことは可能か?
- RQ2実際に返された要素数が $k$ より少ない場合、プライバシー予算を効率的に管理する方法は何か?
- RQ3トップ-$k$ 選択において、プライバシーを損なわず実用性を向上させるために、組み合わせ定理を厳密にできるか?
- RQ4制限ありと制限なしの感度の違いが、トップ-$k$ 選択におけるプライバシーコストに与える影響は何か?
- RQ5既存のデータシステムのパイプラインを変更することなく統合できる、実用的でスケーラブルなアルゴリズムを設計できるか?
主な発見
- 提案されたアルゴリズムは、$\delta > 0$ の $(\varepsilon, \delta)$-微分プライバシーを満たし、完全なドメイン知識がなくても動作可能である。
- 任意の $\bar{k} \geq k$ に対して、トップ-$\bar{k}$ 要素へのアクセスのみを必要とするため、探索的データ分析において実用的である。
- 支払いはあなたが得た分だけの組み合わせルールにより、プライバシー予算は実際に出力された集合のサイズにのみ減少し、$k$ に依存しないため、実用性が向上する。
- 制限あり感度ではプライバシーコストは $\approx \Delta \varepsilon$ に比例するが、制限なし感度では $\approx \sqrt{k} \varepsilon$ に比例し、標準的な組み合わせよりもタイトである。
- 限定的指数的メカニズムにおけるGumbelノイズの使用により、誤差が有界な範囲でトップ-$k$ 選択の高確率での正しさが保証される。
- このフレームワークは、スケーラブルな分析プラットフォームの上位にプライベートレイヤーとしてシームレスに統合可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。