[論文レビュー] The Secret Revealer: Generative Model-Inversion Attacks Against Deep Neural Networks
本論文は Generative Model-Inversion (GMI) 攻撃を導入し、GAN の priors を用いて DNN からプライベートな訓練データを再構成する。 prior 方法と比較して substantial performance gains を示し、標準的な differential privacy からの保護は限定的であることを明らかにしている。
This paper studies model-inversion attacks, in which the access to a model is abused to infer information about the training data. Since its first introduction, such attacks have raised serious concerns given that training data usually contain privacy-sensitive information. Thus far, successful model-inversion attacks have only been demonstrated on simple models, such as linear regression and logistic regression. Previous attempts to invert neural networks, even the ones with simple architectures, have failed to produce convincing results. We present a novel attack method, termed the generative model-inversion attack, which can invert deep neural networks with high success rates. Rather than reconstructing private training data from scratch, we leverage partial public information, which can be very generic, to learn a distributional prior via generative adversarial networks (GANs) and use it to guide the inversion process. Moreover, we theoretically prove that a model's predictive power and its vulnerability to inversion attacks are indeed two sides of the same coin---highly predictive models are able to establish a strong correlation between features and labels, which coincides exactly with what an adversary exploits to mount the attacks. Our extensive experiments demonstrate that the proposed attack improves identification accuracy over the existing work by about 75\% for reconstructing face images from a state-of-the-art face recognition classifier. We also show that differential privacy, in its canonical form, is of little avail to defend against our attacks.
研究の動機と目的
- 深層ネットワークにおけるモデル inversion 攻撃を通じた訓練データのプライバシーリスクを動機づける。
- 公開データを活用して GAN によりデータ・マンifold を学習する Generative MI (GMI) 攻撃を提案する。
- モデルの予測力と inversion 攻撃の脆弱性との理論的関係を示す。
- 既存の MI 攻撃よりもタスク間で顕著な改善を実証的に示す。
- 提案された GMI 攻撃に対して差分プライバシーの有効性を評価する。
提案手法
- 公開データ上で現実的なデータ・マンifold を学習するために GAN(多様性損失を伴う Wasserstein GAN)を訓練する。
- 二段階攻撃:公開知識蒸留(公開データ上で G と識別器を訓練)と秘密の暴露(ターゲットモデル下で尤度を最大化する潜在変数 z の最適化)。
- 二段階目では、prior 損失 L_prior(z) および同一性損失 L_id(z) によって z を最適化し、機微な特徴を回復する。
- 現実性のための L_wgan を制約に加え、ターゲットネットワークの特徴空間を介した情報性のある射影を保証する多様性項 L_div を追加する。
- 明示的な損失形式を提供する: L_wgan(G,D)=E_x[D(x)]−E_z[D(G(z))], L_div(G)=E_{z1,z2}[||F(G(z1))-F(G(z2))|| / ||z1−z2||], L_prior(z)=−D(G(z)), L_id(z)=−log C(G(z)).
実験結果
リサーチクエスチョン
- RQ1公開データから学習した生成的 priors が深層ネットワークに対する効果的なモデル inversion を可能にするか?
- RQ2モデルの予測力は inversion 攻撃に対する脆弱性とどう関連するのか?
- RQ3差分プライバシーなどの標準的なプライバシー保護は GMI 攻撃の有効性を緩和するか?
- RQ4公開データの類似性、補助的知識など、GMI 攻撃の成功に影響を与える要因は何か?
- RQ5GMI 攻撃は異なるアーキテクチャやデータセットでどう性能を示すか?
主な発見
| Model | Attack | KNN Dist | Feat Dist | Attack Acc | Top-5 Attack Acc |
|---|---|---|---|---|---|
| VGG16 | EMI | 2397.50 | 2255.54 | 0 | 0 |
| VGG16 | PII | 2368.77 | 2425.09 | 0 | 0 |
| VGG16 | GMI | 2098.92 | 2012.10 | 28 | 53 |
| ResNet-152 | EMI | 2422.99 | 2288.13 | 0 | 1 |
| ResNet-152 | PII | 2368.77 | 2425.09 | 0 | 0 |
| ResNet-152 | GMI | 1969.09 | 1886.44 | 44 | 72 |
| face.evolve | EMI | 2371.52 | 2248.81 | 0 | 1 |
| face.evolve | PII | 2368.77 | 2425.09 | 0 | 0 |
| face.evolve | GMI | 1923.72 | 1802.62 | 46 | 76 |
- GMI は従来の EMI 攻撃を大きく上回り、例として CelebA の顔認識モデルで Top-5 攻撃精度が最大 75% 向上。
- 差分プライバシーは標準的な DP セットアップ下で GMI に対する防御としてほとんど機能しない。
- GAN を介して公開知識を蒸留した priors は有効な前提条件となり得る;公開データとプライベートデータの分布が乖離すると攻撃性能は低下。
- モデルの予測力が高いほど、アーキテクチャ間で MI 脆弱性と正の相関を示す。
- GMI は CelebA 上で VGG16、ResNet-152、および face.evolve モデルを対象に EMI および PII より一貫して優れており、より現実的でアイデンティティを保持した再構成を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。