[論文レビュー] Privacy-preserving Machine Learning through Data Obfuscation
本論文は、MLaaSにおけるトレーニングデータのプライバシーを保護する汎用データ偽装フレームワークを提案します。機微なサンプルに摺動を加え、グループを拡張することで、モデル精度を維持しつつ複数のプライバシー攻撃を阻止します。
As machine learning becomes a practice and commodity, numerous cloud-based services and frameworks are provided to help customers develop and deploy machine learning applications. While it is prevalent to outsource model training and serving tasks in the cloud, it is important to protect the privacy of sensitive samples in the training dataset and prevent information leakage to untrusted third parties. Past work have shown that a malicious machine learning service provider or end user can easily extract critical information about the training samples, from the model parameters or even just model outputs. In this paper, we propose a novel and generic methodology to preserve the privacy of training data in machine learning applications. Specifically we introduce an obfuscate function and apply it to the training data before feeding them to the model training task. This function adds random noise to existing samples, or augments the dataset with new samples. By doing so sensitive information about the properties of individual samples, or statistical properties of a group of samples, is hidden. Meanwhile the model trained from the obfuscated dataset can still achieve high accuracy. With this approach, the customers can safely disclose the data or models to third-party providers or end users without the need to worry about data privacy. Our experiments show that this approach can effective defeat four existing types of machine learning privacy attacks at negligible accuracy cost.
研究の動機と目的
- MLaaSにおけるプライバシー脅威を分析し、漏洩源と漏洩のタイプを分類する。
- 学習データの個々の属性とグループ属性を隠す汎用データ偽装手法を提案する。
- 偽装が複数のプライバシー攻撃を最小限の精度影響で打ち負かすことを示す。
- プライバシーと有用性のバランスを取るための偽装パラメータに関するガイドラインを提供する。
提案手法
- アウトソーシング前にクライアント側へObfuscateモジュールを導入し、トレーニングデータを前処理する。
- ObfuscateIndividualSampleは機微サンプルの選択された特徴量にノイズを加え、個別属性を隠す。
- ObfuscateGroupSampleはグループを合成サンプル(ネガティブとノイズを加えたもの)で拡張し、グループレベルの統計を隠す。
- 2つの脅威モデルケースを提供する:全データアクセスとブラックボックスモデルアクセス、そしてプライバシーと有用性のトレードオフを分析する。
- 4つの攻撃タイプ(モデル memorization、membership inference、model inversion、model classification)に対するプライバシーを評価し、精度コストはほとんどない。
実験結果
リサーチクエスチョン
- RQ1データ偽装は、攻撃者がデータ、モデルパラメータ、出力にアクセスしても、個々のトレーニングサンプルの属性の漏洩を防止できるか。
- RQ2機械学習モデルの精度を大幅に損なうことなく、合成データを用いたサンプル群の偽装が統計的特性を隠せるか。
- RQ3プライバシーと有用性のバランスを取るための有効なパラメータ設定(ノイズレベル、特徴量比、拡張比率)は何か。
- RQ4提案された偽装技術は、MLaaSシナリオにおける複数の既知のMLプライバシー攻撃を打ち破れるか。
- RQ5個別偽装とグループ偽装の二つの戦略は、異なる脅威モデル間でどう比較されるか。
主な発見
- 個別サンプルに対して特徴量の一部にノイズを加えることで、直接データアクセスによる漏洩を低減しつつ、学習効率と精度の損失を抑える。
- グループのサンプルを合成的でノイズを含む逆符号サンプルで拡張することで、グループレベルの統計を隠しつつモデル精度への影響を最小限にできる。
- 提案手法は、テストされたシナリオ下で、4つのプライバシー攻撃( memorization、membership inference、model inversion、model classification)を効果的に打ち破る。
- ノイズ強度と摂動される特徴量の割合(r)は、プライバシーと有用性のトレードオフに影響を与え、実証結果では報告ケースでの精度低下が<5%と受け入れ可能である。
- データ偽装はMLaaSに対して一般的でモデル非依存のプライバシー保護を提供し、第三者がデータ、モデル、出力にアクセスしてもデータ漏洩リスクを低減する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。