QUICK REVIEW

[論文レビュー] Differentially Private Mean Embeddings with Random Features (DP-MERF) for Simple & Practical Synthetic Data Generation.

Frederik Harder, Kamil Adamczewski|arXiv (Cornell University)|Feb 26, 2020

Privacy-Preserving Technologies in Data参考文献 27被引用数 4

ひとこと要約

本稿では、カーネル平均埋め込みのランダム特徴近似を用いた、微分プライバシーを満たす合成データ生成手法であるDP-MERFを提案する。データに依存する項を分離し、有界なランダム特徴を活用することで、従来手法よりも低いプライバシー費用と解析的感度を達成し、表形式データ、特徴-ラベル連携型データ、高次元データにおいて、プライバシーと有用性のトレードオフをより良く実現する。

ABSTRACT

We present a differentially private data generation paradigm using random feature representations of kernel mean embeddings when comparing the distribution of true data with that of synthetic data. We exploit the random feature representations for two important benefits. First, we require a very low privacy cost for training deep generative models. This is because unlike kernel-based distance metrics that require computing the kernel matrix on all pairs of true and synthetic data points, we can detach the data-dependent term from the term solely dependent on synthetic data. Hence, we need to perturb the data-dependent term once-for-all and then use it until the end of the generator training. Second, we can obtain an analytic sensitivity of the kernel mean embedding as the random features are norm bounded by construction. This removes the necessity of hyperparameter search for a clipping norm to handle the unknown sensitivity of an encoder network when dealing with high-dimensional data. We provide several variants of our algorithm, differentially private mean embeddings with random features (DP-MERF) to generate (a) heterogeneous tabular data, (b) input features and corresponding labels jointly; and (c) high-dimensional data. Our algorithm achieves better privacy-utility trade-offs than existing methods tested on several datasets.

研究の動機と目的

高次元データにおける微分プライバシー生成モデルの高プライバシー費用と感度推定の課題に対処すること。
深層生成モデルにおけるクリッピングノルムのハイパーパrameterチューニングの必要性を低減すること。これは、有界なランダム特徴によって解析的感度を保証することで実現する。
異種の表形式データ、特徴-ラベル連携型データ、高次元データを含む、多様なデータタイプにおいて、効率的かつ実用的な微分プライバシー合成データ生成を可能にすること。
カーネル距離計算におけるデータに依存する項と合成データ専用の項を分離することで、従来手法よりも優れたプライバシー-有用性トレードオフを実現すること。

提案手法

フルなカーネル行列計算の代わりに、ランダム特徴を用いてカーネル平均埋め込みを近似することで、計算コストとプライバシー負荷を低減する。
カーネル距離メトリックにおけるデータに依存する項と、合成データのみの項を分離し、全トレーニングプロセスにわたり、データに依存する項に対して一度のノイズ注入で十分となる。
ランダム特徴のノルム有界性を活用して解析的感度を導出し、クリッピングノルムのハイパーパrameter探索の必要性を排除する。
データに依存するコンポonentに対して一度だけノイズを注入し、微分プライバシー距離メトリックを用いて深層生成モデルを訓練する。
異種の表形式データ用、特徴-ラベル連携生成用、高次元データ用の3つのアルゴリズムバリエーションを設計する。
ランダム特徴表現を用いることで、プライバシー保証を維持しつつ、スケーラブルかつ正確な分布マッチングを実現する。

実験結果

リサーチクエスチョン

RQ1カーネル平均埋め込みのランダム特徴近似は、微分プライバシー生成モデルにおけるプライバシー費用を低減できるか？
RQ2距離メトリックにおけるデータに依存する項と合成データ専用の項を分離することで、一度のノイズ注入が可能となり、トレーニング効率が向上するか？
RQ3有界なランダム特徴は解析的感度を提供することができ、高次元設定におけるクリッピングノルムハイパーパrameterチューニングの必要性を排除できるか？
RQ4多様なデータタイプにおいて、DP-MERFは既存手法と比較してプライバシー-有用性トレードオフが優れているか？
RQ5強力なプライバシー保証のもとで、DP-MERFは異種の表形式データ、特徴-ラベル連携型データ、高次元データに対して高品質な合成データを効果的に生成できるか？

主な発見

DP-MERFは、データに依存する項を分離し、一度のノイズ注入で全トレーニングにわたって適用することで、従来手法よりも顕著に低いプライバシー費用を達成する。
ノルム有界なランダム特徴の使用により、解析的感度の計算が可能となり、高次元データにおけるヒューリスティックなクリッピングノルム選択の必要性が排除される。
複数のデータセット、特に表形式データと高次元データにおいて、ベースライン手法と比較して優れたプライバシー-有用性トレードオフを示す。
アルゴリズムは、異種の表形式データ、特徴-ラベル連携型データ、高次元データという3つのデータタイプにおいて、合成データ生成に有効である。
効率的なランダム特徴近似を通じて、深層生成モデルのスケーラブルなトレーニングを可能にしながらも、強力なプライバシー保証を維持する。
実験的結果から、既存の微分プライバシー生成モデルと比較して、分布マッチング性能および下流の有用性評価で優れた性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。