QUICK REVIEW

[論文レビュー] Differentially Private Empirical Risk Minimization: Efficient Algorithms and Tight Error Bounds

Raef Bassily, Adam Smith|arXiv (Cornell University)|May 27, 2014

Privacy-Preserving Technologies in Data参考文献 20被引用数 60

ひとこと要約

本稿は、Lipschitz損失関数と有界な最適化領域という最小限の仮定の下で、凸な経験的リスク最小化（ERM）のための効率的な微分プライバシー付きアルゴリズムを提示する。$(\epsilon,0)$-および$(\epsilon,\delta)$-微分プライバシーの両方に対して、それぞれ最適な技術を別々に導入し、前者は指数分布サンプリング、後者は局所化勾配降下法に依存する。両者とも多項式時間で実行可能であり、一部の状況では非プライベートなオラクルの計算複雑度と一致する。

ABSTRACT

In this paper, we initiate a systematic investigation of differentially private algorithms for convex empirical risk minimization. Various instantiations of this problem have been studied before. We provide new algorithms and matching lower bounds for private ERM assuming only that each data point's contribution to the loss function is Lipschitz bounded and that the domain of optimization is bounded. We provide a separate set of algorithms and matching lower bounds for the setting in which the loss functions are known to also be strongly convex. Our algorithms run in polynomial time, and in some cases even match the optimal non-private running time (as measured by oracle complexity). We give separate algorithms (and lower bounds) for $(ε,0)$- and $(ε,δ)$-differential privacy; perhaps surprisingly, the techniques used for designing optimal algorithms in the two cases are completely different. Our lower bounds apply even to very simple, smooth function families, such as linear and quadratic functions. This implies that algorithms from previous work can be used to obtain optimal error rates, under the additional assumption that the contributions of each data point to the loss function is smooth. We show that simple approaches to smoothing arbitrary loss functions (in order to apply previous techniques) do not yield optimal error rates. In particular, optimal algorithms were not previously known for problems such as training support vector machines and the high-dimensional median.

研究の動機と目的

Lipschitz損失関数と有界な最適化領域という最小限の仮定の下で、凸な経験的リスク最小化（ERM）のための効率的な微分プライバシー付きアルゴリズムを開発すること。
$(\epsilon,0)$-および$(\epsilon,\delta)$-微分プライバシーの両方に対して、過剰リスクの一致する下界を確立すること。
最適な過剰リスクを達成しつつ、多項式時間の計算複雑度を維持するアルゴリズムを設計すること。一部の状況では非プライベート手法のオラクル複雑度と一致する。
SVM や高次元のメジアンのような非滑らかな問題において、従来のスムージング技術が失敗する理由を解消すること。

提案手法

$(\epsilon,\delta)$-プライバシーの場合は、凸体上のサンプリングを立方体上のサンプリングに還元するためにペナルティ項を用いた局所化勾配降下法を用いる。これにより、対象となる分布の対数凸分布からの効率的なサンプリングが可能になる。
$(\epsilon,0)$-プライバシーの場合は、対数凸分布からのサンプリングを効率的に行うことで指数メカニズムの実装を最適化し、スケーリングされた損失関数を用いてプライバシーを保証する。
アルゴリズムは、凸集合上での対数凸分布からの効率的サンプリングに依存しており、最近の等方的変換およびマルコフ連鎖モンテカルロ法の進展を活用している。
プライバシー保証は、真の分布と近似分布との間の距離の上限を用いて確立され、感度パrameterを適切に調整した指数メカニズムの変種が用いられる。
損失関数は$\frac{\epsilon}{6L\|\mathcal{C}\|_2}$でスケーリングされ、これにより$\epsilon$-微分プライバシーが保証される。出力は、$\exp\left(-\frac{\epsilon}{6L\|\mathcal{C}\|_2}\mathcal{L}(\theta;\mathcal{D})\right)$に比例する分布からサンプリングされる。
アルゴリズムは等方的配置への還元を含み、凸性を維持し、効率的なサンプリングを保証するためのペナルティ関数を用いる。

実験結果

リサーチクエスチョン

RQ1Lipschitzかつ有界な最適化領域という仮定のみの下で、微分プライバシー付き凸ERMにおける最適な過剰リスクは何か？
RQ2$(\epsilon,0)$-および$(\epsilon,\delta)$-微分プライバシーの両方に対して、下界と一致する多項式時間の効率的アルゴリズムを設計可能か？
RQ3なぜ標準的なスムージング技術は、ヒンジ損失やメジアンのような非滑らかな損失関数において最適な誤差率を達成できないのか？
RQ4効率的な対数凸分布からのサンプリングをどのように活用して、最適なプライベートERMアルゴリズムを設計できるか？
RQ5プライバシー、利便性、計算効率の間の根本的なトレードオフは何か？

主な発見

本稿は、Lipschitzおよび強い凸性の両設定において、過剰リスクの一致する下界を確立し、提案されたアルゴリズムが情報理論的に最適であることを示した。
$(\epsilon,\delta)$-微分プライバシーの下で、アルゴリズムは過剰リスク$O\left(\frac{L^2 \|\mathcal{C}\|_2^2 \log p}{n\epsilon}\right)$を達成し、一部の状況では非プライベートなオラクルの複雑度と一致する。
$(\epsilon,0)$-微分プライバシーの下で、指数サンプリングと効率的な対数凸分布サンプリングを用いて、過剰リスク$O\left(\frac{L^2 \|\mathcal{C}\|_2^2 \log p}{n\epsilon}\right)$を達成した。
本稿は、非滑らかな損失関数（例：ヒンジ損失、$\ell_1$-メジアン）に対して、単純なスムージングでは最適な誤差率が得られないことを証明し、SVM や高次元メジアンのような問題における従来の手法の無効性を示した。
提案されたアルゴリズムは多項式時間で実行可能であり、ヒンジ損失や$\ell_1$-メジアンのような非滑らかで強く凸でない損失関数に対しても、最適な過剰リスクを達成する。
これらの結果は、滑らかさの仮定に依存する従来のアルゴリズムが、一般のLipschitz凸ERMに対して最適な誤差率を達成するために直接的に適用できないことを示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。