QUICK REVIEW

[論文レビュー] DP-MERF: Differentially Private Mean Embeddings with Random Features for Practical Privacy-Preserving Data Generation

Frederik Harder, Kamil Adamczewski|arXiv (Cornell University)|Feb 26, 2020

Privacy-Preserving Technologies in Data参考文献 38被引用数 23

ひとこと要約

本稿では、カーネル平均埋め込みのランダム特徴近似を用いることで、効率的で高ユーティリティなプライバシー保護型データ生成を可能にする、微分プライバシーを適用したDP-MERFを提案する。データに依存する項と依存しない項を分離し、解析的に有界なランダム特徴を活用することで、GANベースの手法と比較して顕著に優れたプライバシー・ユーティリティのトレードオフを達成しており、MNISTおよび表形式データにおいても、強いプライバシー制約（例：ϵ = 0.2）下でも優れている。

ABSTRACT

We propose a differentially private data generation paradigm using random feature representations of kernel mean embeddings when comparing the distribution of true data with that of synthetic data. We exploit the random feature representations for two important benefits. First, we require a minimal privacy cost for training deep generative models. This is because unlike kernel-based distance metrics that require computing the kernel matrix on all pairs of true and synthetic data points, we can detach the data-dependent term from the term solely dependent on synthetic data. Hence, we need to perturb the data-dependent term only once and then use it repeatedly during the generator training. Second, we can obtain an analytic sensitivity of the kernel mean embedding as the random features are norm bounded by construction. This removes the necessity of hyper-parameter search for a clipping norm to handle the unknown sensitivity of a generator network. We provide several variants of our algorithm, differentially-private mean embeddings with random features (DP-MERF) to jointly generate labels and input features for datasets such as heterogeneous tabular data and image data. Our algorithm achieves drastically better privacy-utility trade-offs than existing methods when tested on several datasets.

研究の動機と目的

既存の微分プライバシーを適用したデータ生成手法における高いプライバシーコストと限られたユーティリティを改善すること。
反復的プライバシー機構の制約がなく、実用的でスケーラブルなプライバシー保護型データ生成を可能にすること。
データに依存する項を分離することで、深層生成モデルの学習に必要なプライバシー予算を低減すること。
ノルム有界なランダム特徴を用いて、カーネル平均埋め込みの解析的感度バウンディングを提供すること。
強いプライバシー保証（例：ϵ ≤ 0.2）下でも、合成データにおける下流タスクのパフォーマンスを向上させること。

提案手法

ランダムフーリエ特徴を用いてカーネル平均埋め込みを近似し、効率的かつ微分プライバシーを満たす計算を可能にする。
プライバシーを要するデータに依存する平均埋め込みと、データに依存しない合成埋め込みを分離する。
データに依存する項に対しては1回の微分プライバシー解放を適用し、生成器の学習中に再利用する。
ランダム特徴のノルム有界性（1で有界）に基づく解析的感度バウンディングを採用することで、勾配クリッピングやハイパーパramータチューニングの必要性を排除する。
プライバシー化された真のデータ埋め込みと合成データ埋め込みのMMDを最小化するシンプルな目的関数を用いて生成器を訓練する。
柔軟でGAN非依存の最適化フレームワークを用いて、異種の表形式および画像データの入力特徴とラベルを統合的に生成する。

実験結果

リサーチクエスチョン

RQ1カーネル平均埋め込みのランダム特徴近似は、より低いプライバシーコストで効率的な微分プライバシーを適用したデータ生成を可能にするか？
RQ2MMD目的関数におけるデータに依存する項と依存しない項の分離により、1回の再利用可能なプライバシー解放が可能となり、全体のプライバシー予算が削減されるか？
RQ3解析的に有界なランダム特徴は、プライベート学習における勾配クリッピングや感度ハイパーパramータチューニングの必要性を排除できるか？
RQ4画像および表形式データセットにおいて、DP-MERFはGANベースのプライベートデータ生成手法と比較して、プライバシー・ユーティリティのトレードオフで優れているか？
RQ5強いプライバシー制約（例：ϵ = 0.2）下でも、DP-MERFは下流の機械学習タスクにおける高いユーティリティを維持できるか？

主な発見

DP-MERFはϵ = 0.2でMNISTにおいて、すべてのGANベースのベースラインを上回っており、それらの多くははるかに弱いプライバシー（例：ϵ = 9.6）下で学習されている。
FashionMNISTでは、DP-MERFがϵ = 0.2でテスト精度0.53を達成し、DP-CGAN（0.39）およびDP-GAN（0.46）（いずれもϵ = 9.6）を顕著に上回った。
表形式データでは、12のデータセットすべてにおいて、同じプライバシー水準下でDP-MERFがDP-CGANおよびDP-GANよりも高い評価指標スコアを達成した。
解析的に有界なランダム特徴のおかげで、1回の低感度DPリリースにより強力なプライバシー保証が達成された。
DP-MERFが生成するサンプルはノイジーではあるが、特徴を明確に保持しており、GS-WGANやDP-CGANが生成する高品質なサンプルよりも、下流の分類タスクで優れた性能を示した。
セラミッドがんデータにおける非プライベートなMERFベースラインは、生成サンプルの分散による正則化のおかげで、実データを上回った。これは、本手法の一般化への利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。