QUICK REVIEW

[論文レビュー] Do Not Let Privacy Overbill Utility: Gradient Embedding Perturbation for Private Learning

Dahua Yu, Huishuai Zhang|arXiv (Cornell University)|Feb 25, 2021

Privacy-Preserving Technologies in Data参考文献 58被引用数 28

ひとこと要約

GEPは、プライベート勾配を非敏感なアンカー部分空間に埋め込むことで勾配摂動の次元を削減し、低次元の埋め込みと残差を別々に摂動することで、深層モデルに対する差分プライバシー下での高い精度を実現します。

ABSTRACT

The privacy leakage of the model about the training data can be bounded in the differential privacy mechanism. However, for meaningful privacy parameters, a differentially private model degrades the utility drastically when the model comprises a large number of trainable parameters. In this paper, we propose an algorithm \emph{Gradient Embedding Perturbation (GEP)} towards training differentially private deep models with decent accuracy. Specifically, in each gradient descent step, GEP first projects individual private gradient into a non-sensitive anchor subspace, producing a low-dimensional gradient embedding and a small-norm residual gradient. Then, GEP perturbs the low-dimensional embedding and the residual gradient separately according to the privacy budget. Such a decomposition permits a small perturbation variance, which greatly helps to break the dimensional barrier of private learning. With GEP, we achieve decent accuracy with reasonable computational cost and modest privacy guarantee for deep models. Especially, with privacy bound $ε=8$, we achieve $74.9\%$ test accuracy on CIFAR10 and $95.1\%$ test accuracy on SVHN, significantly improving over existing results.

研究の動機と目的

実用的なプライバシー予算の下で高次元の深層モデルにおけるDPの有用性喪失の課題を動機づける。
勾配の次元削減によって有用性を向上させるためにGradient Embedding Perturbation (GEP)を提案する。
GEPの理論的DP保証を提供し、残差勾配の挙動を分析する。
MNIST、SVHN、CIFAR-10において、ベースラインと比較して最先端のDP学習性能を実証的に示す。

提案手法

パワー法を用いて、非敏感な補助データからアンカー部分空間を構築し、アンカー勾配の主成分を捉える。
プライベート勾配をアンカー部分空間に射影して低次元の埋め込みと残差勾配を得る。
勾配埋め込みと残差勾配をガウスノイズで個別に摂動してDPを達成し、結合時には無偏な勾配推定量を保証する。
Rényi DPを用いたDP解析を提供し、(ε, δ)-DPへ変換する。感度S1とS2を制御するために勾配クリッピングを用いる。
計算負荷を減らすためにグループごとに実装する。深層モデルの有用性を向上させるために2段階のノイズ追加を用いる。

実験結果

リサーチクエスチョン

RQ1高次元モデルにおけるDP勾配摂動で有効ノイズエネルギーをどう削減するか？
RQ2低次元勾配埋め込みと残差成分の組み合わせで深層ネットワークの秘密学習を高精度に実現できるか？
RQ3GEPを一般的な視覚データセットで使用した場合のDP保証と実用的な境界は何か？
RQ4同等のプライバシー予算の下で、GEPはGP（標準のDP-SGD）およびPATEとベンチマークデータセットでどう比較されるか？

主な発見

データセット	アルゴリズム	ε=2	Δ	ε=5	Δ	ε=8	Δ
MNIST	GP	94.7	+0.0	96.8	+0.0	97.2	+0.0
MNIST	PATE	98.5	+3.8	98.5	+1.7	98.6	+1.4
MNIST	B-GEP	93.1	-1.6	94.5	-2.3	95.9	-1.3
MNIST	GEP	96.3	+1.6	97.9	+1.1	98.4	+1.2
SVHN	GP	87.1	+0.0	91.3	+0.0	91.6	+0.0
SVHN	PATE	80.7	-6.4	91.6	+0.3	91.6	+0.0
SVHN	B-GEP	88.5	+1.4	91.8	+0.5	92.3	+0.7
SVHN	GEP	92.3	+5.2	94.7	+3.4	95.1	+3.5
CIFAR-10	GP	43.6	+0.0	52.2	+0.0	56.4	+0.0
CIFAR-10	PATE	34.2	-9.4	41.9	-10.3	43.6	-12.8
CIFAR-10	B-GEP	50.3	+6.7	59.5	+7.3	63.0	+6.6

GEPは、いくつかのプライバシー予算に対して、MNIST、SVHN、CIFAR-10のDP勾配摂動ベースライン（GP）よりも大幅な精度向上を達成する。
ε=8のCIFAR-10で、GEPは74.9%のテスト精度に達し、GPより約18.5ポイント高く大幅に上回る。
SVHNでは、ε=8で最大95.1%のテスト精度に達し、GPより約3.5ポイント上回る。
MNISTでは、ε=8で最大98.4%のテスト精度に達し、GPより約1.2ポイント上回る。
これらのベンチマークで、特により複雑なデータセットであるCIFAR-10において、PATEと比較して競争力がある、または上回る性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。