QUICK REVIEW

[論文レビュー] Scalable Differentially Private Generative Student Model via PATE.

Yunhui Long, Suxin Lin|arXiv (Cornell University)|Jun 21, 2019

Privacy-Preserving Technologies in Data参考文献 26被引用数 18

ひとこと要約

本稿では、G-PATEを提案する。これは、プライバシー保護された教師識別器のアンサンブルを用いて学生生成器を訓練するスケーラブルな微分プライバシー生成モデルであり、発表された生成器でのみ強いプライバシー保証を達成する。教師から学生生成器への知識蒸留に私的勾配集約を適用することで、G-PATEは画像および表形式データセットの両方で最先端の性能を達成し、高いデータユーティリティを維持する。

ABSTRACT

Recent rapid development of machine learning is largely due to algorithmic breakthroughs, computation resource development, and especially the access to a large amount of training data. However, though data sharing has the great potential of improving machine learning models and enabling new applications, there have been increasing concerns about the privacy implications of data collection. In this work, we present a novel approach for training differentially private data generator G-PATE. The generator can be used to produce synthetic datasets with strong privacy guarantee while preserving high data utility. Our approach leverages generative adversarial nets (GAN) to generate data and protect data privacy based on the Private Aggregation of Teacher Ensembles (PATE) framework. Our approach improves the use of privacy budget by only ensuring differential privacy for the generator, which is the part of the model that actually needs to be published for private data generation. To achieve this, we connect a student generator with an ensemble of teacher discriminators. We also propose a private gradient aggregation mechanism to ensure differential privacy on all the information that flows from the teacher discriminators to the student generator. We empirically show that the G-PATE significantly outperforms prior work on both image and non-image datasets.

研究の動機と目的

大規模なデータ収集と共有に伴う機械学習分野におけるプライバシー懸念の増大に対処すること。
高いデータユーティリティを維持しながら、強力なプライバシー保証を備えた合成データセットを生成する手法を開発すること。
全モデル全体ではなく、発表される生成器にのみ微分プライバシーを適用することで、不要なプライバシーバジェット消費を削減すること。
GANとPATEフレームワークを用いて、プライバシー保護生成モデルのスケーラブルかつ実用的な展開を可能にすること。
先行研究を改善するため、プライバシー保護を生成器に集中させることで、データ生成に使用される唯一の公開コンponentに焦点を当てる。

提案手法

各教師識別器を、訓練データを保護するため微分プライバシーを適用して訓練した、実データ上の教師識別器のアンサンブルを訓練する。
教師識別器を用いて知識蒸留により学生生成器をガイドし、生成器が合成データを生成するように学習させる。
教師から学生生成器に渡される勾配に対して微分プライバシーを保証するため、私的勾配集約メカニズムを適用する。
生成的対抗ネットワーク（GANs）を用いて、学生生成器が現実的な合成サンプルを生成できるように訓練する。
教師から学生への情報フローにのみ微分プライバシーを適用することで、生成器の訓練プロセスからプライバシー保護を分離する。
最終的に公開される生成器モデルにのみ微分プライバシーを適用することで、プライバシーバジェットの使用を最適化する。

実験結果

リサーチクエスチョン

RQ1画像および非画像データセットの両方において、高いデータユーティリティを維持しながら、強力なプライバシー保証を備えた生成モデルを訓練できるか？
RQ2発表された生成器にのみ微分プライバシーを効率的に適用することで、不要なプライバシーコストを最小限に抑える方法は何か？
RQ3私的勾配集約は、GANベースのデータ生成におけるプライバシーとユーティリティのトレードオフをどの程度改善するか？
RQ4PATEフレームワークは、学生生成器と教師識別器の構成を用いて、プライバシー保護生成モデルを効果的に訓練するために適応可能か？
RQ5性能およびプライバシー効率の観点から、G-PATEは先行研究のプライベート生成モデルと比べてどのように差をつけるか？

主な発見

G-PATEは、画像および非画像データセットの両方において、先行研究を著しく上回り、データユーティリティとプライバシー保証の両面で優れた性能を発揮する。
プライベートな教師識別器から得た知識を効果的に蒸留することで、高品質な合成データ生成を実現する。
私的勾配集約により、教師から学生生成器に流れ込むすべての情報に対して微分プライバシーが保証される。
生成器にのみ微分プライバシーを適用することで、G-PATEはプライバシーバジェットの使用を最適化し、非公開コンponentsの過剰保護を回避する。
本アプローチは、画像や表形式データを含む多様なデータタイプにわたりスケーラブルであり、強力な一般化性能を示す。
実験的結果により、G-PATEが微分プライバシーによる形式的なプライバシー保証を維持しながらも、高いデータユーティリティを保持することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。