Skip to main content
QUICK REVIEW

[論文レビュー] GAMIN: An Adversarial Approach to Black-Box Model Inversion

Ulrich Aïvodji, Sébastien Gambs|arXiv (Cornell University)|Sep 26, 2019
Adversarial Robustness in Machine Learning参考文献 48被引用数 26
ひとこと要約

GAMINは、ターゲットモデルのアーキテクチャを事前に知らない状態で、深層ニューラルネットワークから訓練データを再構築する、生成的敵対ネットワークを用いた画期的なブラックボックスモデル逆方向攻撃を提案する。これは、最小限の計算コストで、アーキテクチャに依存しないクエリベースの設定で効率的に動作し、高い忠実度の再構築を達成する。MNISTラベルの60%で識別可能な数字が再構築され、皮膚分類モデルから顔の特徴が抽出された。

ABSTRACT

Recent works have demonstrated that machine learning models are vulnerable to model inversion attacks, which lead to the exposure of sensitive information contained in their training dataset. While some model inversion attacks have been developed in the past in the black-box attack setting, in which the adversary does not have direct access to the structure of the model, few of these have been conducted so far against complex models such as deep neural networks. In this paper, we introduce GAMIN (for Generative Adversarial Model INversion), a new black-box model inversion attack framework achieving significant results even against deep models such as convolutional neural networks at a reasonable computing cost. GAMIN is based on the continuous training of a surrogate model for the target model under attack and a generator whose objective is to generate inputs resembling those used to train the target model. The attack was validated against various neural networks used as image classifiers. In particular, when attacking models trained on the MNIST dataset, GAMIN is able to extract recognizable digits for up to 60% of labels produced by the target. Attacks against skin classification models trained on the pilot parliament dataset also demonstrated the capacity to extract recognizable features from the targets.

研究の動機と目的

  • 深層ニューラルネットワークのような複雑なモデルに対する効果的なブラックボックスモデル逆方向攻撃という未解決問題に取り組むこと。
  • ターゲットモデルのアーキテクチャや学習データ分布を事前に知らない状態で動作する手法を開発すること。
  • 従来の勾配ベースの手法と比較して、ブラックボックスモデル逆方向攻撃の計算コストを低減すること。
  • MLPや畳み込みニューラルネットワークを含む多様なモデルアーキテクチャにおいて、攻撃の有効性を評価すること。
  • 機械学習システムにおけるプライバシー漏洩に対するモデル逆方向攻撃の影響を検討すること。

提案手法

  • 攻撃は、ターゲットモデルの意思決定境界を継続的なクエリベース学習によって近似する、ジェネレータと並列に学習されるサーロー・モデルを用いる。
  • ジェネレータは、GANに類似した敵対的プロセスで訓練され、特定のラベルに対してターゲットモデルの信頼度スコアを最大化する入力を生成することを目的とする。
  • サーロー・モデルはターゲットモデルへのクエリを用いて更新され、アーキテクチャの知識なしにその出力行動を模倣する。
  • ジェネレータとサーロー・モデルは、入力再構築忠実度を最適化するために、エンドツーエンドで共同で訓練される。
  • この手法はターゲットモデルとのクエリベースの相互作用に依存しており、実世界のブラックボックスシステムに適用可能である。
  • このフレームワークはモデルタイプに依存せず、方程式の解法やモデルの内部構造を知る必要がない。

実験結果

リサーチクエスチョン

  • RQ1ターゲットモデルのアーキテクチャを知らない状態で、ブラックボックスモデル逆方向攻撃が訓練データを高忠実度で再構築できるか。
  • RQ2MLP や畳み込みニューラルネットワークのような異なるモデルタイプにおいて、攻撃の性能はどのように変化するか。
  • RQ3従来の勾配ベースや方程式解法アプローチと比較して、攻撃の計算コストはどの程度か。
  • RQ4顔画像や数字画像のような機微なデータから、識別可能な特徴をどの程度再構築できるか。
  • RQ5アーキテクチャの複雑さや意思決定境界の抽象化は、モデル逆方向攻撃の成功にどのように影響するか。

主な発見

  • MNISTデータセットで学習されたモデルに対して攻撃を実行したところ、60%のケースで識別可能な数字が再構築された。
  • パイロット議会データセットで学習された皮膚分類モデルから、識別可能な顔の特徴を抽出する能力を示した。
  • 従来の手法が推定で50〜80日を要するのに対し、MLPでは約6時間という顕著な計算コストの低減を達成した。
  • 畳み込みニューラルネットワークは、意思決定境界の抽象化と希釈により、逆方向攻撃に対してより抵抗性であることが判明した。
  • この手法は、アーキテクチャやデータ分布の仮定なしに、ブラックボックスでアーキテクチャに依存しない設定で効果的に動作する。
  • 結果から、攻撃の成功を測る標準的な指標が再構築品質を信頼的に予測できない可能性があることが示唆され、より洗練された評価基準の必要性が浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。