Skip to main content
QUICK REVIEW

[論文レビュー] Accuracy First: Selecting a Differential Privacy Level for Accuracy-Constrained ERM

Katrina Ligett, Seth Neel|arXiv (Cornell University)|May 30, 2017
Privacy-Preserving Technologies in Data被引用数 32
ひとこと要約

本論文は、経験的リスク最小化(ERM)において固定された精度要件を満たすまま、データアナリストが最もプライバシーに配慮した微分プライバシーのレベル(ε)を選択できるノイズ低減フレームワークを提案する。相関ノイズと適応的AboveThreshold手法を用いることで、プライバシーの余剰コストを最小化し、理論的限界やベースライン探索手法と比較して顕著に強いプライバシー(例:e^ε ≈ 10 対 495)を達成する。

ABSTRACT

Traditional approaches to differential privacy assume a fixed privacy requirement $ε$ for a computation, and attempt to maximize the accuracy of the computation subject to the privacy constraint. As differential privacy is increasingly deployed in practical settings, it may often be that there is instead a fixed accuracy requirement for a given computation and the data analyst would like to maximize the privacy of the computation subject to the accuracy constraint. This raises the question of how to find and run a maximally private empirical risk minimizer subject to a given accuracy requirement. We propose a general "noise reduction" framework that can apply to a variety of private empirical risk minimization (ERM) algorithms, using them to "search" the space of privacy levels to find the empirically strongest one that meets the accuracy constraint, incurring only logarithmic overhead in the number of privacy levels searched. The privacy analysis of our algorithm leads naturally to a version of differential privacy where the privacy parameters are dependent on the data, which we term ex-post privacy, and which is related to the recently introduced notion of privacy odometers. We also give an ex-post privacy analysis of the classical AboveThreshold privacy tool, modifying it to allow for queries chosen depending on the database. Finally, we apply our approach to two common objectives, regularized linear and logistic regression, and empirically compare our noise reduction methods to (i) inverting the theoretical utility guarantees of standard private ERM algorithms and (ii) a stronger, empirical baseline based on binary search.

研究の動機と目的

  • 理論的微分プライバシー手法(εを固定し精度を最大化)と実用的状況(精度を固定しプライバシーを最大化)の間のギャップを埋めること。
  • 望ましい精度目標と整合する最小のεを経験的に特定する手法を設計すること。
  • 通常は高いプライバシーコストを伴う適応的データ解析における、探索プロセス自体のプライバシーコストを最小化すること。
  • データに依存するプライバシーパラメータを考慮する新しいプライバシー概念「ex-post privacy」を導入し、その分析を行うこと。
  • 提案手法が理論的ユーティリティ境界や標準的な探索ベースラインと比較して、顕著に優れたプライバシー・精度トレードオフを達成することを経験的に示すこと。

提案手法

  • 高いプライバシー性を持つ初期推定値からノイズを差し引くことで、次第にプライバシー性が低い仮説を生成するノイズ低減技術を用いる。相関ノイズを活用することで追加のプライバシーコストを回避する。
  • 仮説を順次テストするためのインタラクティブ版AboveThresholdアルゴリズムを適用し、精度の閾値を満たす最初の仮説をプライバシー的に特定する。
  • データに依存するクエリを考慮した修正解析を用いて、クエリ数の対数関数的増加で探索のプライバシーコストを限定する。
  • リッジ回帰およびロジスティック回帰に適した標準的なプライベートERMアルゴリズム(共分散摂動、出力摂動)をフレームワークに適用する。
  • データに依存するプライバシーパラメータを扱う「ex-post privacy」を導入し、この概念の形式的分析を提供する。
  • 精度制約を満たす最初の仮説を出力し、プライバシーロスは最終仮説のプライバシーロスに加え、AboveThreshold機構のコストに等しい。

実験結果

リサーチクエスチョン

  • RQ1データアナリストは、ERMにおける固定された精度要件を満たす最良の微分プライバシーパラメータεをどのように特定できるか?
  • RQ2εの適応的探索におけるプライバシーコストは何か? そして、どのようにしてこれを最小化できるか?
  • RQ3プライベートな仮説生成を可能にしつつ、追加のプライバシーコストを最小限に抑えるノイズ低減フレームワークを設計できるか?
  • RQ4理論的ユーティリティ境界や経験的探索ベースラインと比較して、提案手法はプライバシー・精度トレードオフにおいてどのように異なるか?
  • RQ5データに依存するプライバシーパラメータ選択から自然に生じる新しいプライバシー概念「ex-post privacy」は何か? そして、その形式的分析はどのように行えるか?

主な発見

  • 提案されたノイズ低減手法は、理論的ユーティリティ境界よりも顕著に強いプライバシーを達成し、α=0.05のリッジ回帰において、プライバシーリスク要因e^εを約495から10.0に低減する。
  • 同じ精度目標(α=0.075)のもとで、本手法はe^εを4.65にまで低減するが、DoublingMethodベースラインでは56.6にとどまる。
  • 仮説テストフェーズ(InteractiveAboveThreshold経由)のプライバシーコストは想定よりも高かった。主に仮説ノルムの感受性の過剰な上限見積もりによる。
  • 経験的に、テストされた仮説の実際のノルムは理論的上限値よりもはるかに低く、よりタイトな感受性推定がさらなるプライバシー保証の向上に寄与する可能性がある。
  • 本手法のプライバシーロスは、最終仮説のプライバシーロスとほぼ同等であり、探索プロセスに起因する追加コストは対数的である。
  • ex-post privacyの分析により、εがデータに応じて適応的に選択されても、本手法がきびしいプライバシー保証を維持していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。