Skip to main content
QUICK REVIEW

[論文レビュー] Generating Differentially Private Datasets Using GANs

Aleksei Triastcyn, Boi Faltings|arXiv (Cornell University)|Feb 15, 2018
Privacy-Preserving Technologies in Data参考文献 18被引用数 30
ひとこと要約

本論文では、訓練中に微分プライバシーを確保するために識別器にガウスノイズを注入するGANベースの手法を提案する。これにより、小さなプライバシー予算のもとで、実データの統計的性質を保持しつつ、高品質な合成データセットを生成できる。

ABSTRACT

In this paper, we present a technique for generating artificial datasets that retain statistical properties of the real data while providing differential privacy guarantees with respect to this data. We include a Gaussian noise layer in the discriminator of a generative adversarial network to make the output and the gradients differentially private with respect to the training data, and then use the generator component to synthesise privacy-preserving artificial dataset. Our experiments show that under a reasonably small privacy budget we are able to generate data of high quality and successfully train machine learning models on this artificial data.

研究の動機と目的

  • 実データの統計的性質を維持しつつ、微分プライバシーを確保する合成データセットを生成する手法を開発すること。
  • 個人情報が含まれるデータに対して生成モデルを訓練する際、個々のデータポイントが露呈されないよう対処すること。
  • 特に識別器において、微分プライバシーをGANの訓練プロセスに直接統合し、訓練データを保護すること。
  • プライバシー保護された合成データが、有効な下流の機械学習タスクをサポートできるかどうかを評価すること。

提案手法

  • GANの識別器にガウスノイズ層を挿入し、その出力と勾配を訓練データに関して微分プライバシーに保証する。
  • 生成器は、微分プライバシーを備えた識別器を欺くような合成データを生成するように訓練される。
  • ノイズの注入により、モデルのパラメータと出力が個々のデータポイントの変化に対してロバストになることが保証され、微分プライバシーを満たす。
  • プライバシー予算(epsilons)は、ガウス層のノイズスケールを調整することで制御される。
  • 訓練プロセスは、生成器と微分プライバシーを備えた識別器の更新を交互に繰り返す。
  • 最終的な生成器は、元のデータの統計的特性を保持する合成データセットを生成する。

実験結果

リサーチクエスチョン

  • RQ1GANを変更することで、高品質かつ微分プライバシーを満たす合成データセットを生成できるか?
  • RQ2識別器にノイズを注入することで、生成データの品質と有用性にどのような影響を与えるか?
  • RQ3プライバシー予算(epsilons)と合成データの忠実度の間にはどのようなトレードオフがあるか?
  • RQ4合成データ上で訓練された機械学習モデルは、実データ上で訓練されたモデルと同等の性能を達成できるか?
  • RQ5提案手法は、既存の微分プライバシーを備えたデータ生成技術と比較してどう異なるか?

主な発見

  • 提案手法は、小さなプライバシー予算のもとで、元のデータの統計的性質を保持する合成データセットを効果的に生成した。
  • 下流のモデル性能の観点からも、強力なプライバシー保証のもとでも生成データの品質が高く維持されていることが裏付けられた。
  • 合成データ上で訓練された機械学習モデルは、実データ上で訓練されたモデルとほぼ同等の性能を達成した。
  • ノイズを識別器に注入することで、モデルパラメータと出力の両方に対してエンドツーエンドの微分プライバシーが実現された。
  • 本手法は、プライバシーとデータの有用性を維持したまま、実世界のデータセットに対しても効果的にスケーリング可能であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。