[論文レビュー] Comprehensive Privacy Analysis of Deep Learning: Stand-alone and Federated Learning under Passive and Active White-box Inference Attacks.
本稿では、スタンドアロンおよびフェデレーテッドラーニング環境下における深層学習モデルに対するホワイトボックス型メンバーシップインファレンス攻撃の包括的分析を提示する。勾配とパラメータ更新を活用することで、スティル・グラデントディセント(SGD)の過程において、良好に一般化されたモデルですら訓練データのメンバーシップを露呈する新たな攻撃を設計した。本研究は、最先端のCIFARモデルおよびフェデレーテッドシステムにおいて顕著なプライバシー漏洩が生じることを示した。
Deep neural networks are susceptible to various inference attacks as they remember information about their training data. We perform a comprehensive analysis of white-box privacy inference attacks on deep learning models. We measure the privacy leakage by leveraging the final model parameters as well as the parameter updates during the training and fine-tuning processes. We design the attacks in the stand-alone and federated settings, with respect to passive and active inference attackers, and assuming different adversary prior knowledge. We design and evaluate our novel white-box membership inference attacks against deep learning algorithms to measure their training data membership leakage. We show that a straightforward extension of the known black-box attacks to the white-box setting (through analyzing the outputs of activation functions) is ineffective. We therefore design new algorithms tailored to the white-box setting by exploiting the privacy vulnerabilities of the stochastic gradient descent algorithm, widely used to train deep neural networks. We show that even well-generalized models are significantly susceptible to white-box membership inference attacks, by analyzing state-of-the-art pre-trained and publicly available models for the CIFAR dataset. We also show how adversarial participants of a federated learning setting can run active membership inference attacks against other participants, even when the global model achieves high prediction accuracies.
研究の動機と目的
- モデルのパラメータと勾配更新を用いたホワイトボックス型インファレンス攻撃を通じて、深層学習モデルにおけるプライバシー漏洩を分析すること。
- 確率的勾配降下法(SGD)のトレーニングプロセスに特化した、新たなホワイトボックス型メンバーシップインファレンス攻撃を設計し、ブラックボックス拡張の限界を克服すること。
- 受動的および能動的攻撃者モデルを想定した、スタンドアロンおよびフェデレーテッドラーニング環境下での攻撃の有効性を評価すること。
- 特にCIFAR向けに事前学習された、良好に一般化されたモデルが高精度を示しても、メンバーシップインファレンスの脆弱性が依然として残ることを評価すること。
- フェデレーテッドラーニングにおける悪意ある参加者が、グローバルモデルが良好に動作している状態でも、他の参加者のデータに対して能動的なメンバーシップインファレンス攻撃を実行できることを示すこと。
提案手法
- 確率的勾配降下法(SGD)トレーニング中の勾配とパラメータ更新の分析を通じて、ホワイトボックス型メンバーシップインファレンス攻撃を設計すること。
- 攻撃をスタンドアロンおよびフェデレーテッドラーニング環境に拡張し、異なる事前知識を持つ受動的および能動的攻撃者をモデル化すること。
- 最終的なモデルパラメータと中間の重み更新をインファレンス信号として用い、サンプルが訓練セットに含まれていたかどうかを特定すること。
- SGDの統計的性質を活用する攻撃アルゴリズムを開発し、出力に基づくブラックボックス拡張がホワイトボックス環境では効果を示さないことを示すこと。
- CIFAR-10およびCIFAR-100用の最先端の事前学習済みモデルに対して攻撃を評価し、メンバーシップインファレンスの成功確率を測定すること。
- 悪意あるクライアントが勾配を操作することで、フェデレーテッドラーニングにおける能動的攻撃をシミュレートし、他のクライアントのデータのメンバーシップを推定すること。
実験結果
リサーチクエスチョン
- RQ1勾配とパラメータ更新を活用したホワイトボックス型メンバーシップインファレンス攻撃は、スタンドアロンの深層学習モデルにおいてどの程度効果的か?
- RQ2標準的なブラックボックス攻撃拡張がホワイトボックス環境で失敗する理由は何か? また、SGDのトレーニングダイナミクスからどのような新たな攻撃ベクトルが生じるか?
- RQ3良好に一般化された深層学習モデルですら、訓練データのメンバーシップ情報をどの程度漏洩するのか?
- RQ4フェデレーテッドラーニングにおいて、悪意ある参加者がグローバルモデルが高精度を達成している状態でも、能動的なメンバーシップインファレンス攻撃を実行可能か?
- RQ5スタンドアロンおよびフェデレーテッド環境下で、異なるモデルアーキテクチャとデータセットにおいてプライバシー漏洩はどのように変動するか?
主な発見
- 勾配とパラメータ更新の分析に基づくホワイトボックス型メンバーシップインファレンス攻撃は、出力アクティベーションのみに依存するブラックボックス拡張を著しく上回る性能を示す。
- CIFAR-10およびCIFAR-100で学習された良好に一般化されたモデルですら、本稿で提案されたホワイトボックス攻撃において高いメンバーシップインファレンス成功確率を示す。
- 提案された攻撃は、最終的なモデル重みに加え、特にSGDベースの最適化における中間的トレーニングダイナミクスからもプライバシー漏洩が生じることを示した。
- フェデレーテッドラーニングでは、悪意ある参加者が他のクライアントのデータに対して能動的なメンバーシップインファレンス攻撃を実行でき、グローバルモデルが高精度を維持している状態でもプライバシーが脅かされることを示した。
- 結果として、標準的なモデル一般化がプライバシーを保証するものではないことが明らかになった。訓練データのメンバーシップはホワイトボックス技術を用いれば依然として推定可能である。
- 本研究は、現在の防御策がモデルの精度や一般化性能に基づいているが、洗練されたホワイトボックス型メンバーシップインファレンスに対しては不十分である可能性を明らかにした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。