QUICK REVIEW

[論文レビュー] Generating Differentially Private Datasets Using GANs

Aleksei Triastcyn, Boi Faltings|arXiv (Cornell University)|Feb 15, 2018

Privacy-Preserving Technologies in Data参考文献 18被引用数 30

ひとこと要約

本論文では、訓練中に微分プライバシーを確保するために識別器にガウスノイズを注入するGANベースの手法を提案する。これにより、小さなプライバシー予算のもとで、実データの統計的性質を保持しつつ、高品質な合成データセットを生成できる。

ABSTRACT

In this paper, we present a technique for generating artificial datasets that retain statistical properties of the real data while providing differential privacy guarantees with respect to this data. We include a Gaussian noise layer in the discriminator of a generative adversarial network to make the output and the gradients differentially private with respect to the training data, and then use the generator component to synthesise privacy-preserving artificial dataset. Our experiments show that under a reasonably small privacy budget we are able to generate data of high quality and successfully train machine learning models on this artificial data.

研究の動機と目的

実データの統計的性質を維持しつつ、微分プライバシーを確保する合成データセットを生成する手法を開発すること。
個人情報が含まれるデータに対して生成モデルを訓練する際、個々のデータポイントが露呈されないよう対処すること。
特に識別器において、微分プライバシーをGANの訓練プロセスに直接統合し、訓練データを保護すること。
プライバシー保護された合成データが、有効な下流の機械学習タスクをサポートできるかどうかを評価すること。

提案手法

GANの識別器にガウスノイズ層を挿入し、その出力と勾配を訓練データに関して微分プライバシーに保証する。
生成器は、微分プライバシーを備えた識別器を欺くような合成データを生成するように訓練される。
ノイズの注入により、モデルのパラメータと出力が個々のデータポイントの変化に対してロバストになることが保証され、微分プライバシーを満たす。
プライバシー予算（epsilons）は、ガウス層のノイズスケールを調整することで制御される。
訓練プロセスは、生成器と微分プライバシーを備えた識別器の更新を交互に繰り返す。
最終的な生成器は、元のデータの統計的特性を保持する合成データセットを生成する。

実験結果

リサーチクエスチョン

RQ1GANを変更することで、高品質かつ微分プライバシーを満たす合成データセットを生成できるか？
RQ2識別器にノイズを注入することで、生成データの品質と有用性にどのような影響を与えるか？
RQ3プライバシー予算（epsilons）と合成データの忠実度の間にはどのようなトレードオフがあるか？
RQ4合成データ上で訓練された機械学習モデルは、実データ上で訓練されたモデルと同等の性能を達成できるか？
RQ5提案手法は、既存の微分プライバシーを備えたデータ生成技術と比較してどう異なるか？

主な発見

提案手法は、小さなプライバシー予算のもとで、元のデータの統計的性質を保持する合成データセットを効果的に生成した。
下流のモデル性能の観点からも、強力なプライバシー保証のもとでも生成データの品質が高く維持されていることが裏付けられた。
合成データ上で訓練された機械学習モデルは、実データ上で訓練されたモデルとほぼ同等の性能を達成した。
ノイズを識別器に注入することで、モデルパラメータと出力の両方に対してエンドツーエンドの微分プライバシーが実現された。
本手法は、プライバシーとデータの有用性を維持したまま、実世界のデータセットに対しても効果的にスケーリング可能であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。