QUICK REVIEW

[論文レビュー] Mutual Information Optimally Local Private Discrete Distribution Estimation

Shaowei Wang, Liusheng Huang|arXiv (Cornell University)|Jul 27, 2016

Privacy-Preserving Technologies in Data参考文献 13被引用数 67

ひとこと要約

本稿では、離散的分布推定における最適な局所的微分プライバシー機構として、kサブセット機構を提案する。この機構は、プライベートなデータとその洗練済みビュー間の相互情報量を最大化する。固定サイズのサブセットをランダムに出力することで、全プライバシー領域（実用的なレベルである log 2 ≤ ε ≤ log(d−1) を含む）において正確な相互情報量の上限を達成し、特に中間的プライバシー領域において、既存手法を著しく上回る性能を発揮する。

ABSTRACT

Consider statistical learning (e.g. discrete distribution estimation) with local $ε$-differential privacy, which preserves each data provider's privacy locally, we aim to optimize statistical data utility under the privacy constraints. Specifically, we study maximizing mutual information between a provider's data and its private view, and give the exact mutual information bound along with an attainable mechanism: $k$-subset mechanism as results. The mutual information optimal mechanism randomly outputs a size $k$ subset of the original data domain with delicate probability assignment, where $k$ varies with the privacy level $ε$ and the data domain size $d$. After analysing the limitations of existing local private mechanisms from mutual information perspective, we propose an efficient implementation of the $k$-subset mechanism for discrete distribution estimation, and show its optimality guarantees over existing approaches.

研究の動機と目的

局所的微分プライバシーにおける理論的プライバシー機構と実用的データユーティリティのギャップを埋める。
高プライバシー領域にとどまらず、すべてのプライバシー水準における局所的ε-微分プライバシー下での正確な相互情報量の上限を導出する。
既存の局所的プライベート機構の限界を、相互情報量の観点から特定・分析する。
離散的分布推定のための最適なデータユーティリティを達成する、効率的かつ実装可能な機構「kサブセット」を提案する。
l₂-ノルム誤差測定において、kサブセット機構の最適性を示す。

提案手法

任意の局所的プライバシー機構を、相互情報量に損失を生じさせることなく、重みアーモナイズド形式に変換する。
局所的プライバシー下での相互情報量に、凸的性質が存在することを発見し、固定サイズのサブセット（kサブセット）をランダムに出力する方式が最適であることを証明する。
εとドメインサイズdの関数としてのサブセットサイズkを最適化することで、正確な相互情報量の上限を導出する。
kサブセット機構を提案：データドメインXから一様ランダムにサイズkのサブセットを出力するプライベートチャネル。
線形時間のデータランダマイザーと線形時間の分布推定器を備えた効率的実装を設計する。
離散的分布推定において、l₂-ノルム誤差の観点からkサブセット機構の最適性保証を確立する。

実験結果

リサーチクエスチョン

RQ1すべてのプライバシー水準において、局所的ε-微分プライバシー下で、ユーザーのプライベートなデータとその局所的洗練済みビュー間の相互情報量の正確な上限は何か？
RQ2なぜ既存の局所的プライベート機構は、実用的プライバシー領域（例：ε ∈ [log 2, log(d−1)]）で性能を発揮しないのか？
RQ3理論的相互情報量上限に達しながら、効率的に実装可能な機構を構築できるか？
RQ4最適なサブセットサイズkは、プライバシー水準εとデータドメインサイズdとどのように関係するか？
RQ5kサブセット機構は、離散的分布推定においてl₂-ノルム誤差の観点から最適であるか？

主な発見

kサブセット機構は、すべてのε（特にε ∈ [log 2, log(d−1)] の実用的領域を含む）において、局所的ε-微分プライバシーの理論的相互情報量上限を正確に達成する。
最適なサブセットサイズkは、εとdの閉形式関数として決定され、プライバシー制約下での情報保持を最大化する。
数値的評価では、kサブセット機構が中間的プライバシー領域において既存手法を著しく上回り、一部の設定ではl₂誤差が最大30%低減される。
機構のデータランダマイザーと分布推定器の両方とも、ドメインサイズdおよびユーザー数nに関して線形時間計算量を有し、効率的な展開が可能である。
一般化されたランダム化応答およびその変種といった既存の機構は、特に実用的プライバシー範囲において相互情報量の観点で劣っていることが示された。
kサブセット機構はl₂-ノルム誤差において最適性を達成しており、離散的分布推定タスクにおける優位性を裏付けている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。