[論文レビュー] The Cost of Privacy: Optimal Rates of Convergence for Parameter Estimation with Differential Privacy
本論文は minimax 下界を確立し、平均推定と線形回帰について差分プライバシーアルゴリズムと一致させ、プライバシー(epsilon, delta)と統計的精度の最適なトレードオフを、低次元および高次元の設定の双方で特徴づける。
Privacy-preserving data analysis is a rising challenge in contemporary statistics, as the privacy guarantees of statistical methods are often achieved at the expense of accuracy. In this paper, we investigate the tradeoff between statistical accuracy and privacy in mean estimation and linear regression, under both the classical low-dimensional and modern high-dimensional settings. A primary focus is to establish minimax optimality for statistical estimation with the $(\varepsilon,δ)$-differential privacy constraint. To this end, we find that classical lower bound arguments fail to yield sharp results, and new technical tools are called for. By refining the "tracing adversary" technique for lower bounds in the theoretical computer science literature, we formulate a general lower bound argument for minimax risks with differential privacy constraints, and apply this argument to high-dimensional mean estimation and linear regression problems. We also design computationally efficient algorithms that attain the minimax lower bounds up to a logarithmic factor. In particular, for the high-dimensional linear regression, a novel private iterative hard thresholding pursuit algorithm is proposed, based on a privately truncated version of stochastic gradient descent. The numerical performance of these algorithms is demonstrated by simulation studies and applications to real data containing sensitive information, for which privacy-preserving statistical methods are necessary.
研究の動機と目的
- プライバシーを(epsilon, delta)-差分プライバシーの下での基本的な推定問題のコストとして動機づけし formalize する。
- 平均推定と線形回帰のプライバシー制約の下での minimax 下界を導出する。
- これらの下界を対数因子まで達成する差分プライベートアルゴリズムを設計する。
- 低次元および高次元の設定の両方でプライバシーと精度のトレードオフを理論的・実証的に検証する。
提案手法
- 平均推定と線形回帰のための(epsilon, delta)-DPに基づく minimax リスクを用いてプライバシーのコストを定義する。
- 低次元および高次元の問題に対して鋭い DP 下界を得るようタスク追跡者技法を改良する。
- 下界を対数因子まで達成する DP アルゴリズム(ノイズを加えたガウス/ノイズ付機構、プライベート反復法)を構築する。
- 座標をプライベートに選択するためのペーリング機構を用いたプライベートなスパース平均推定アプローチを導入する。
- 適切な領域で tilde{O}((d^2 log(1/delta))/ (n^2 epsilon^2)) の収束率の界を導出する。
実験結果
リサーチクエスチョン
- RQ1(epsilon, delta)-DP の下で低次元および高次元設定における平均ベクトルと回帰係数の推定の minimax リスクはいくらか。
- RQ2差分プライバシーアルゴリズムは対応する minimax 下界を達成し、収束の最適レートを確立できるか。
- RQ3高次元のスパース性が平均推定と回帰におけるプライバシーコストにどう影響するか。
- RQ4これらの最適レートを達成する実用的なプライベートアルゴリズムは何で、実証的にはどう動作するか。
- RQ5n, d, s* の各レジームでプライバシーコストは古典的な統計リスクとどう比較されるか。
主な発見
- プライバシーのコストが統計的リスクを支配するのは (d log(1/delta)) / (n epsilon^2) が大きい場合であり、平均推定については Omega(d/n + d^2 log(1/delta)/ (n^2 epsilon^2)) の界がある。
- DP 下の平均推定と線形回帰の新しい高次元下界が導入され、レートは (s log d)^2 / (n^2 epsilon^2) を含む。
- 下界を対数因子まで達成する DP アルゴリズムを提案。回帰に対して tilde{O}(d^2 log(1/delta)/(n^2 epsilon^2)) の収束率を持つノイズ付き勾配法、スパースな下界を達成するプライベートなペーリングベースのスパース平均推定器を提案。
- 高次元のスパース推定では DP レートは (s log d)^2 に依存し、対数因子までほぼ最適であり、高次元で DP の実現可能性を示唆。
- プライバシーと精度のトレードオフを数値シミュレーションと実データ応用で示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。