Skip to main content
QUICK REVIEW

[論文レビュー] Hadamard Response: Estimating Distributions Privately, Efficiently, and with Little Communication

Jayadev Acharya, Ziteng Sun|arXiv (Cornell University)|Feb 13, 2018
Privacy-Preserving Technologies in Data参考文献 32被引用数 58
ひとこと要約

本論文は Hadamard Response (HR) を導入し、近線形時間、対数的通信量、かつ全てのプライバシー regime におけるサンプル最適な性能を持つ対称 ε-LDP スキームを提案します。

ABSTRACT

We study the problem of estimating $k$-ary distributions under $\varepsilon$-local differential privacy. $n$ samples are distributed across users who send privatized versions of their sample to a central server. All previously known sample optimal algorithms require linear (in $k$) communication from each user in the high privacy regime $(\varepsilon=O(1))$, and run in time that grows as $n\cdot k$, which can be prohibitive for large domain size $k$. We propose Hadamard Response (HR}, a local privatization scheme that requires no shared randomness and is symmetric with respect to the users. Our scheme has order optimal sample complexity for all $\varepsilon$, a communication of at most $\log k+2$ bits per user, and nearly linear running time of $ ilde{O}(n + k)$. Our encoding and decoding are based on Hadamard matrices, and are simple to implement. The statistical performance relies on the coding theoretic aspects of Hadamard matrices, ie, the large Hamming distance between the rows. An efficient implementation of the algorithm using the Fast Walsh-Hadamard transform gives the computational gains. We compare our approach with Randomized Response (RR), RAPPOR, and subset-selection mechanisms (SS), both theoretically, and experimentally. For $k=10000$, our algorithm runs about 100x faster than SS, and RAPPOR.

研究の動機と目的

  • ローカル差分プライバシー(LDP)下のプライベート分布推定を、サンプル、通信、計算の厳密なリソース制約の下で動機づける。
  • 高次元ドメイン(k が大きい)で効率的な対称・非共有乱数化 privatization スキームを開発する。
  • 全てのプライバシーレベルに対して、通信をユーザーあたり k に対して対数的、実行時間を n と k にほぼ線形に保ちつつ、オーダー最適なサンプル複雑性を達成する。

提案手法

  • Hadamard Response (HR) を提案する。ε-LDP スキームで出力アルファベット Z はサイズ K、k と 4k の間、Hadamard 行列に由来するサイズ K/2 の集合 Cx を用いる。
  • 高プライバシー領域では、x と x′ の分離を最大化するように K と Cx を選択することで最適な privatization を得る。誤差境界を持つ推定量を導出する。
  • p(Cx)( privatized サンプルが Cx に入る確率)と p(x) との関係を利用して、経験的 p(Cx) から推定量 ˆp を構築する。
  • Fast Walsh–Hadamard 変換を用いた推定量の効率的な Hadamard ベースの計算を提供し、時間を ˜O(n + k) に達成する。
  • HR をブロック構造化された Hadamard 構成を用いて一般的な ε に拡張し、高プライバシー Hadamard 行列と RR(randomized response)の間を補間する。
  • 全ての ε に対してほぼ線形時間とユーザーあたりの対数的通信を実現する理論的保証を提供する。

実験結果

リサーチクエスチョン

  • RQ1ε-LDP 分布推定を、通信を O(log k) に保ちながらサンプル最適な精度で達成できるか?
  • RQ2大規模な k に対して、ほぼ線形時間のデコードと効率的実装を可能にする対称・非共有乱数化 privatization スキームは存在するか?
  • RQ3Hadamard 行列を活用して、プライバシー、サンプル複雑性、通信、計算のトレードオフに有利な私的メカニズムを設計できるか?

主な発見

  • Hadamard Response は ε のすべての領域でサンプル次数的最適な推定を、各ユーザーあたりの対数通信(約 log k + 1 ビット)で達成する。
  • 高プライバシー領域(ε = O(1))では、HR は近線形の実行時間 ˜O(n + k) およびサンプル複雑性 O(k^2/ε^2α^2) を ℓ1、あるいは ℓ2 で α 誤差を狙う場合に達成する。
  • 推定量 ˆp は Hadamard 変換を介して効率的に計算でき、ストリーミングされた privatized 出力の後に O(k log k) 時間だけを必要とする。
  • HR は大規模な k に対して高プライバシー領域で k-RR、k-RAPPOR、サブセット選択よりも高性能を示し、デコード時間は実験で顕著に速い(例: k = 10,000 の場合)。
  • 一般的なプライバシー領域の構成は HR と RR の間を補間し、サンプル最適性を保ちながら、実行時間を ˜O(n + k) とし、通信を ≲ log k + 2 ビットに保つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。