[論文レビュー] Communication Complexity in Locally Private Distribution Estimation and Heavy Hitters
本稿では、公開ランダムネスなしで、サンプル数最適な1ビット、$\varepsilon$-局所的微分プライバシー方式を提案し、最適なユーティリティを達成する。また、ハダマード・リスポンスが重いヘッダー推定に対してもユーティリティ最適であることを示し、公開ランダムネスなしで最適な重いヘッダー推定を達成するには、各ユーザーあたり$\Omega(\min\{\log n, \log k\})$ビットの通信量が必要であることを証明している。これは、局所的微分プライバシー下での分布推定と頻度推定の間で、根本的な通信量の複雑さのギャップを示している。
We consider the problems of distribution estimation and heavy hitter (frequency) estimation under privacy and communication constraints. While these constraints have been studied separately, optimal schemes for one are sub-optimal for the other. We propose a sample-optimal $\varepsilon$-locally differentially private (LDP) scheme for distribution estimation, where each user communicates only one bit, and requires no public randomness. We show that Hadamard Response, a recently proposed scheme for $\varepsilon$-LDP distribution estimation is also utility-optimal for heavy hitter estimation. Finally, we show that unlike distribution estimation, without public randomness where only one bit suffices, any heavy hitter estimation algorithm that communicates $o(\min \{\log n, \log k\})$ bits from each user cannot be optimal.
研究の動機と目的
- 最小限のユーザー通信量で通信効率的かつ局所的微分プライバシーを満たす分布推定のためのスクリプトを設計すること。
- $\varepsilon$-LDP下で、ハダマード・リスポンスが分布推定および重いヘッダー推定の両方において最適性を示すこと。
- $\varepsilon$-LDP下で公開ランダムネスなしの重いヘッダー推定における根本的な通信量複雑さの限界を特定すること。
- 1ビットの通信量が$\varepsilon$-LDP下で分布推定に対して最適であるが、重いヘッダー推定に対しては最適でないことを示すこと。
提案手法
- 各ユーザーに対して、公開ランダムネスなしのプライベートコイン方式を用いた1ビット、$\varepsilon$-局所的微分プライバシー通信チャネルを提案する。
- ハダマードに基づくランダム化応答メカニズムを用いて、$\varepsilon$-LDPを満たしつつ通信量を最小限に抑え、ユーティリティを最大化する。
- チャネル行列と出力分布の双対性に基づく議論により、分布推定を頻度推定に還元する。
- チエビシェフの不等式に基づく統計的区別不能性の議論を用いて、重いヘッダー推定の通信量複雑さの下限を導出する。
- チャネル下で同一の出力分布をもつ悪意ある入力分布を構築し、推定誤差の下限を強制する。
- ベクトル分解技術を用いて、チャネル行列のゼロ空間方向を同定し、周波数が異なるが区別不能な入力分布を構築する。
実験結果
リサーチクエスチョン
- RQ1公開ランダムネスなしで、1ビット、$\varepsilon$-局所的微分プライバシー方式は、分布推定においてサンプル数最適性を達成できるか?
- RQ2ハダマード・リスポンスは、$\varepsilon$-LDP下で分布推定に加え、重いヘッダー推定に対してもユーティリティ最適であるか?
- RQ3公開ランダムネスなしで、$\varepsilon$-LDP下での最適な重いヘッダー推定に必要なユーザーあたりの最小通信量はどの程度か?
- RQ4公開ランダムネスなしで、$\varepsilon$-LDP下での分布推定と重いヘッダー推定の通信量複雑さはどのように異なるか?
主な発見
- 提案された1ビット、プライベートコイン方式は、公開ランダムネスなしの$\varepsilon$-局所的微分プライバシー分布推定において、サンプル数最適性を達成する。
- ハダマード・リスポンスが、$\varepsilon$-LDP下で分布推定および重いヘッダー推定の両方においてユーティリティ最適であることが示された。
- 公開ランダムネスなしで、$\varepsilon$-LDPによる重いヘッダー推定アルゴリズムが、ユーザーあたり$o(\min\{\log n, \log k\})$ビットの通信量で動作する場合、最適ではない。
- 公開ランダムネスなしで、重いヘッダー推定の通信量複雑さ下限は、ユーザーあたり$\Omega(\log n + \log(1/\varepsilon))$ビットである。
- この下限は、1ビットの通信量では、公開ランダムネスなしの$\varepsilon$-LDP下で重いヘッダー推定を最適に達成できないことを示唆している。
- 実験的評価により、提案された1ビット方式が、RAPPOR やサブセット選択といった最先端手法と同等の$\ell_1$誤差を達成し、ユーザーあたり1ビットの通信量で実現していることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。