Skip to main content
QUICK REVIEW

[論文レビュー] Differentially Private Data Generative Models

Qingrong Chen, Chong Xiang|arXiv (Cornell University)|Dec 6, 2018
Privacy-Preserving Technologies in Data参考文献 51被引用数 32
ひとこと要約

本稿では、差分プライバシーとデータの摂動を組み合わせることで、モデルの逆問題攻撃、メンバー識別攻撃、GANベースの攻撃を防御する、高効用の合成データを生成する2つの異なるプライバシー保護型生成モデル—DP-AuGM(差分プライバシーに基づくオートエンコーダー型生成モデル)およびDP-VaeGM(差分プライバシーに基づく変分オートエンコーダー型生成モデル)—を提案する。これらのモデルは、機械学習のサービスとしての提供(MLaaS)やフェデレーテッドラーニングなどの実世界のシステムにスムーズに統合可能である。

ABSTRACT

Deep neural networks (DNNs) have recently been widely adopted in various applications, and such success is largely due to a combination of algorithmic breakthroughs, computation resource improvements, and access to a large amount of data. However, the large-scale data collections required for deep learning often contain sensitive information, therefore raising many privacy concerns. Prior research has shown several successful attacks in inferring sensitive training data information, such as model inversion, membership inference, and generative adversarial networks (GAN) based leakage attacks against collaborative deep learning. In this paper, to enable learning efficiency as well as to generate data with privacy guarantees and high utility, we propose a differentially private autoencoder-based generative model (DP-AuGM) and a differentially private variational autoencoder-based generative model (DP-VaeGM). We evaluate the robustness of two proposed models. We show that DP-AuGM can effectively defend against the model inversion, membership inference, and GAN-based attacks. We also show that DP-VaeGM is robust against the membership inference attack. We conjecture that the key to defend against the model inversion and GAN-based attacks is not due to differential privacy but the perturbation of training data. Finally, we demonstrate that both DP-AuGM and DP-VaeGM can be easily integrated with real-world machine learning applications, such as machine learning as a service and federated learning, which are otherwise threatened by the membership inference attack and the GAN-based attack, respectively.

研究の動機と目的

  • 機械学習における機密な訓練データに起因するプライバシーのリスク、特に共同学習やクラウドベースの環境におけるリスクを軽減すること。
  • 下流の学習タスクに適した高いデータの有効性を維持しつつ、強力なプライバシー保証を提供する合成データを生成する生成モデルを開発すること。
  • フェデレーテッドラーニングにおける、モデルの逆問題攻撃、メンバー識別攻撃、およびGANベースの勾配漏洩攻撃を含む最新のプライバシー攻撃に対して防御すること。
  • 機械学習のサービスとしての提供(MLaaS)やフェデレーテッドラーニングなどの実世界の機械学習システムへのプライバシー保護型データ生成の実用的統合を可能にすること。
  • データの摂動と差分プライバシーを組み合わせることが、非メンバー関連のプライバシー攻撃(例:モデルの逆問題攻撃、GANベースの再構成攻撃)に対する防御の鍵であることを示すこと。

提案手法

  • プライベートなデータ上で訓練された差分プライバシーを満たすオートエンコーダーであるDP-AuGMを提案し、ノイズの注入により差分プライバシーを確保することで、局所的なデータ合成を可能にする。
  • 推論および生成プロセスの両方に差分プライバシーを適用する、差分プライバシーに基づく変分オートエンコーダーであるDP-VaeGMを開発し、潜在空間におけるノイズを用いる。
  • 勾配のクリッピングを用いた有界な勾配とノイズの追加を適用することで、訓練プロセスに差分プライバシーを適用し、生成モデルに対して(ε, δ)-差分プライバシーを保証する。
  • 公開または洗練済みのデータを、訓練済みの生成モデルの入力として使用することで、第三者が元の機密データを暴露することなく、新しい合成データを生成可能にする。
  • 生成モデルが教師として機能し、学生モデル用に合成データを生成する、知識蒸留に類似したメカニズムを採用することで、プライバシーと有効性を両立させる。
  • MLaaSおよびフェデレーテッドラーニングのパイプラインにモデルを統合し、生の機密データの代わりに合成データを用いることで、モデルの逆問題攻撃や勾配ベースの攻撃のリスクを軽減する。

実験結果

リサーチクエスチョン

  • RQ1差分プライバシーに基づく生成モデルは、モデル出力から機密な訓練データを再構成するモデルの逆問題攻撃に対して、効果的に防御できるか?
  • RQ2DP-AuGMおよびDP-VaeGMは、データポイントが訓練セットに含まれていたかどうかを特定するメンバー識別攻撃に対して耐性を示せるか?
  • RQ3これらのモデルは、共同学習システムにおける共有勾配から機密データを再構成するGANベースの攻撃を緩和できるか?
  • RQ4非メンバー関連のプライバシー攻撃に対する防御において、差分プライバシーとデータの摂動の相対的な貢献度は何か?
  • RQ5これらのモデルは、MLaaSやフェデレーテッドラーニングなどの実世界のシステムに、データの有効性を損なわずに容易に統合できるか?

主な発見

  • DP-AuGMは、差分プライバシーが適用された訓練プロセスであっても、共同ディープラーニングにおけるモデルの逆問題攻撃、メンバー識別攻撃、GANベースの攻撃に対して効果的に防御できることが確認された。
  • DP-VaeGMはメンバー識別攻撃に対して高い耐性を示し、プライバシー保護型のモデル訓練における有効性を裏付けた。
  • 著者らは、モデルの逆問題攻撃やGANベースの攻撃に対する主な防御要因が、差分プライバシーそのものではなく、訓練時のデータ摂動にあると仮説を立てている。
  • DP-AuGMおよびDP-VaeGMの両方とも高いデータの有効性を維持しており、生成された合成データ上で効果的な下流の機械学習タスクが実行可能である。
  • これらのモデルはMLaaSおよびフェデレーテッドラーニングシステムに容易に統合可能であり、生のデータの代わりに差分プライバシーを満たす合成データを用いることで、プライバシー漏洩のリスクを低減できる。
  • 生成データ上で訓練された任意の機械学習モデルは、生成モデルの差分プライバシー保証を継承するため、エンドツーエンドのプライバシー保護が保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。