Skip to main content
QUICK REVIEW

[論文レビュー] Protecting Sensitive Attributes via Generative Adversarial Networks

Aria Rezaei, Chaowei Xiao|arXiv (Cornell University)|Jan 1, 2018
Privacy-Preserving Technologies in Data参考文献 33被引用数 12
ひとこと要約

本論文は、ターゲット機械学習アプリケーションの有用性を保ちながら、データ内の機微な属性(例:性別、人種)をマスクするプライバシー保護型の摂動を生成するGANベースのフレームワークを提案する。コンactで効率的なノイズ生成ネットワークを訓練することで、性能が低下することなく、性別や人種といった機微情報が効果的に隠蔽される。これは、トレーニング時に見られなかったニューラルネットワークアーキテクチャに対しても、同様に有効である。

ABSTRACT

Recent advances in computing have allowed for the possibility to collect large amounts of data on personal activities and private living spaces. Collecting and publishing a dataset in this environment can cause concerns over privacy of the individuals in the dataset. In this paper we examine these privacy concerns. In particular, given a target application, how can we mask sensitive attributes in the data while preserving the utility of the data in that target application. Our focus is on protecting attributes that are hidden and can be inferred from the data by machine learning algorithms. We propose a generic framework that (1) removes the knowledge useful for inferring sensitive information, but (2) preserves the knowledge relevant to a given target application. We use deep neural networks and generative adversarial networks (GAN) to create privacy-preserving perturbations. Our noise-generating network is compact and efficient for running on mobile devices. Through extensive experiments, we show that our method outperforms conventional methods in effectively hiding the sensitive attributes while guaranteeing high performance for the target application. Our results hold for new neural network architectures, not seen before during training and are suitable for training new classifiers.

研究の動機と目的

  • 機械学習を用いて性別や人種などの機微な属性が推定可能なデータセットにおけるプライバシーリスクに対処すること。
  • ターゲットアプリケーションのデータ有用性を損なわせることなく、推定されやすい知識を除去する汎用フレームワークを開発すること。
  • コンパクトなディープニューラルネットワークを用いて、プライバシー保護型変換を効率的にデバイス上にデプロイできること。
  • トレーニング時に見られなかった多様なニューラルネットワークアーキテクチャに対しても、推論段階で堅牢性を保つこと。
  • 機微な属性が摂動された後でも、ターゲットモデル(例:分類器)の性能を高い水準で維持すること。

提案手法

  • 生成的対抗ネットワーク(GANs)を用いて、入力データを摂動させることで機微な属性を隠蔽するノイズ生成ネットワークを学習する。
  • 生成器が摂動されたデータから機微な属性を推定できる能力を最小化するように訓練する。
  • タスク固有の損失を用いて、ターゲットアプリケーションに必要な特徴を保持するように、同時に生成器を最適化する。
  • モバイルデバイスでの効率的推論を可能にするために、ノイズ生成ネットワークにコンパクトなアーキテクチャを採用する。
  • 敵対的損失(プライバシー保護用)とタスク固有損失(有用性用)を組み合わせた損失関数を用いて、エンドツーエンドでフレームワークを訓練する。
  • 訓練された摂動ネットワークを、新しい未確認データに適用し、モデルトレーニングや推論の前に機微な属性をマスクする。

実験結果

リサーチクエスチョン

  • RQ1GANベースのフレームワークは、テーブルデータや画像データにおいて、ターゲット機械学習タスクの性能を劣化させることなく、機微な属性を効果的に隠蔽できるか?
  • RQ2本手法は、トレーニング時に見られなかったニューラルネットワークアーキテクチャにもどの程度一般化できるか?
  • RQ3従来の摂動手法と比較して、本手法は、下流タスクにおけるデータ有用性をどの程度維持できるか?
  • RQ4ノイズ生成ネットワークを、モバイルデバイス上にデプロイ可能なほどコンパクトかつ効率的にできるか?
  • RQ5攻撃者が摂動済みデータに対して高度な推論モデルを用いても、フレームワークはプライバシーを維持できるか?

主な発見

  • 提案手法は、ベースライン手法と比較して、機械学習モデルによる機微な属性の推定能力を顕著に低減している。
  • 本フレームワークは、画像分類などのターゲットアプリケーションにおいて、新しい未確認のニューラルネットワークアーキテクチャに対しても高い性能を維持している。
  • ノイズ生成ネットワークはコンパクトで効率的であり、プライバシー保護や有用性を損なわずに、モバイルデバイス上でリアルタイム推論が可能である。
  • 広範な実験により、本手法が従来のデータ摂動手法よりもプライバシー保護とタスク有用性の両面で優れていることが示された。
  • 本手法は新しいモデルに一般化しやすく、多様なアーキテクチャとデータセットにおいて、一貫したプライバシー保護と有用性の維持を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。