Skip to main content
QUICK REVIEW

[論文レビュー] Differentially Private Releasing via Deep Generative Model (Technical Report)

Xinyang Zhang, Shouling Ji|arXiv (Cornell University)|Jan 5, 2018
Privacy-Preserving Technologies in Data被引用数 40
ひとこと要約

dp-GAN は、private DP-trained GAN をエクスポートして semantically rich なデータを公開する差分プライベートな深層生成モデルを訓練し、プライバシー保証を備えた無制限の合成データを可能にします。

ABSTRACT

Privacy-preserving releasing of complex data (e.g., image, text, audio) represents a long-standing challenge for the data mining research community. Due to rich semantics of the data and lack of a priori knowledge about the analysis task, excessive sanitization is often necessary to ensure privacy, leading to significant loss of the data utility. In this paper, we present dp-GAN, a general private releasing framework for semantic-rich data. Instead of sanitizing and then releasing the data, the data curator publishes a deep generative model which is trained using the original data in a differentially private manner; with the generative model, the analyst is able to produce an unlimited amount of synthetic data for arbitrary analysis tasks. In contrast of alternative solutions, dp-GAN highlights a set of key features: (i) it provides theoretical privacy guarantee via enforcing the differential privacy principle; (ii) it retains desirable utility in the released model, enabling a variety of otherwise impossible analyses; and (iii) most importantly, it achieves practical training scalability and stability by employing multi-fold optimization strategies. Through extensive empirical evaluation on benchmark datasets and analyses, we validate the efficacy of dp-GAN.

研究の動機と目的

  • プライバシー保護と過度なサニタイズなしで semantic-rich なデータを公開する課題に対処する。
  • 差分プライバシーの下で生成モデルを訓練し、無制限なデータを合成するフレームワークを提案する。
  • さまざまな分析のデータ有用性を保ちつつプライバシー保護の保証を確保する。
  • 最適化された訓練戦略を通じて private GAN の訓練安定性とスケーラビリティを向上させる。

提案手法

  • 改良版 Wasserstein GAN を統合し、識別子の訓練に Gaussian DP ノイズを追加して dp-GAN を構築する。
  • 勾配クリッピングと Gaussian ノイズを用いて識別器を DP-train し、ジェネレータを直接 DP 泄露の外に保つ。
  • モーメント会計とサブサンプリングを用いたプライバシーアカウンタで累積プライバシー損失を追跡する。
  • 安定性と有用性を向上させるための多重最適化:パラメータグルーピング、適応クリッピング、ウォームスタート。
  • オプショナルとして、private training の初期化と誘導に少量の公開データを活用する(ウォームスタート)。
  • 理論的な DP 保証を提供する:Algorithm 1/Algorithm 3 は適切な設定の下で (O(q ε √t), δ)-DP。

実験結果

リサーチクエスチョン

  • RQ1深層生成モデルを差分プライバシーを用いて訓練することで、さまざまな分析に有用な合成データを提供できるか。
  • RQ2DP を GAN 訓練に統合し、プライバシーとデータ有用性を両立させるにはどうすれば良いか。
  • RQ3DP-GAN 訓練の安定性とスケーラビリティを向上させる最適化は何か。
  • RQ4プライバシー保護された合成データは半教師付き分類などのタスクの有用性を維持するか。
  • RQ5dp-GAN を用いた実データセットでの実用的なプライバシー-有用性のトレードオフは何か。

主な発見

  • dp-GAN は DP 制約下で MNIST、LSUN-U、LSUN-L、CelebA のデータセット全般で視覚的に鮮やかな合成画像を生成する。
  • dp-GAN の合成データは、実データおよびプライバシー制約なしの通常の GAN と同等程度の Inception スコアを達成する(定性的・定量的分析で報告)。
  • フレームワークは、ユーティリティを保持したまま半監視型分類タスクを可能にする。
  • 高度な最適化(ウェイトクラスタリング、適応クリッピング、ウォームスタート)は、DP 下での訓練安定性と収束を大幅に改善する。
  • モーメント会計とサブサンプリングを組み合わせたプライバシーアカウンタは、訓練プロセスに対して (ε, δ)-DP の保証を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。