Skip to main content
QUICK REVIEW

[論文レビュー] Practical Locally Private Heavy Hitters

Raef Bassily, Kobbi Nissim|arXiv (Cornell University)|Jul 17, 2017
Cryptography and Data Security参考文献 12被引用数 39
ひとこと要約

本稿では、近似的に最良の最悪ケース誤差を達成しつつ、大幅に向上した効率性を実現する2つの新しい局所的微分プライバシーに基づくヒービーギャッター(heavy hitters)アルゴリズム、TreeHist および Bitstogram を提案する。両アルゴリズムとも、サーバーとユーザの実行時間をそれぞれ Õ(n) および Õ(1) に削減し、先行研究の O(n^5/2) および O(n^3/2) の時間計算量と比べて顕著な改善を達成している。著者らは TreeHist の実装を行い、有利な条件下で Google の RAPPOR よりもノイズレベルが低いことを示した。

ABSTRACT

We present new practical local differentially private heavy hitters algorithms achieving optimal or near-optimal worst-case error and running time -- TreeHist and Bitstogram. In both algorithms, server running time is $ ilde O(n)$ and user running time is $ ilde O(1)$, hence improving on the prior state-of-the-art result of Bassily and Smith [STOC 2015] requiring $O(n^{5/2})$ server time and $O(n^{3/2})$ user time. With a typically large number of participants in local algorithms ($n$ in the millions), this reduction in time complexity, in particular at the user side, is crucial for making locally private heavy hitters algorithms usable in practice. We implemented Algorithm TreeHist to verify our theoretical analysis and compared its performance with the performance of Google's RAPPOR code.

研究の動機と目的

  • ユーザ側の計算コストを著しく削減することで、局所的微分プライバシーに基づくヒービーギャッターの実用的ギャップを埋める。
  • 近似的に最良の最悪ケース誤差を達成し、通信量、ストレージ、計算のオーバーヘッドを最小限に抑えるアルゴリズムを設計する。
  • 従来の局所的微分プライバシー手法が高コストであったため、実世界への導入が制限されていた課題を克服する。
  • Apple の実装のようなヒューリスティック手法とは異なり、誤差とサーバー実行時間についての明示的な境界を保証する。
  • 理論的改善を実装とベンチマークにより検証し、RAPPOR と比較する。

提案手法

  • TreeHist は、再帰的ハッシュと誤り訂正符号を用いて、階層的なツリー構造を通じて頻度を推定する。
  • Bitstogram は、ドメイン要素をビットストリングで符号化し、ランダム射影上での周波数オракル(Hashtogram)を適用する。
  • 両アルゴリズムとも、局所的微分プライバシーを保証するために、慎重に調整されたノイズパラメータを用いたランダム化応答を採用する。
  • ポアソンおよびチェルノフの集中不等式を用いて、ノイズ下での正しいヒービーギャッターの回復確率を分析する。
  • 誤り訂正符号を用いて、ノイズのかかったハッシュ応答から高確率で元の値を再構築する。
  • クエリをグループ化し、冗長な計算を最小限に抑えることで、データ処理を Õ(n) 時間で実行可能にする最適化を実施する。

実験結果

リサーチクエスチョン

  • RQ1局所的微分プライバシーに基づくヒービーギャッターを、O(n) のサーバーおよびユーザ時間で計算可能にできるか? また、近似的に最良の誤差を維持できるか?
  • RQ2実際の条件下で、TreeHist のノイズと精度は RAPPOR と比べてどの程度優れているか?
  • RQ3ヒューリスティック手法に依存せずに、誤差と実行時間についての明示的境界を局所モデルで達成できるか?
  • RQ4階層的ハッシュとビットストリング符号化は、ヒービーギャッター推定の精度と効率にどのような影響を与えるか?
  • RQ5従来の局所アルゴリズムの時間計算量を O(n^5/2) および O(n^3/2) から近似的線形時間にまで低減できるか?

主な発見

  • TreeHist および Bitstogram は、それぞれサーバー時間 Õ(n)、ユーザ時間 O(max(log n, log d)^2) を達成し、Bassily と Smith (2015) の O(n^5/2) および O(n^3/2) の計算量と比べ顕著な改善を示した。
  • Bitstogram は最適な最悪ケース誤差を達成するが、TreeHist は √log n 要因の差異を除き、ほぼ最適である。
  • TreeHist の実装により、RAPPOR に有利なドメインサイズ領域において、ノイズレベルが低いことが確認され、より優れた精度を示した。
  • ϵ-局所プライバシーを保証する明示的境界を維持し、誤差が有界な範囲内で高確率でヒービーギャッターを回復できる。
  • ストリーミングによるクエリ結果処理と、低頻度候補の早期破棄により、処理メモリを Õ(√n) に削減した。
  • 理論的分析により、高確率で、周波数が 264n^1.5/T 以上のすべてのヒービーギャッターが正しく回復されることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。