QUICK REVIEW

[論文レビュー] Adversarial Neural Network Inversion via Auxiliary Knowledge Alignment

Ziqi Yang, Ee‐Chien Chang|arXiv (Cornell University)|Feb 22, 2019

Adversarial Robustness in Machine Learning参考文献 52被引用数 25

ひとこと要約

本稿では、元の学習データにアクセスできない状況でも、部分的または切断された出力がある場合でも、モデルの予測から入力データを再構築できるように、訓練済みの逆方向ニューラルネットワークを用いたブラックボックスモデル逆転攻撃を提案する。補助データと切断に基づくアライメント技術を活用することで、元の学習データが不要な状態でも高精度な再構築が可能となり、従来の最適化ベースおよび学習ベースの手法よりも、敵対的状況下で優れた性能を発揮する。

ABSTRACT

The rise of deep learning technique has raised new privacy concerns about the training data and test data. In this work, we investigate the model inversion problem in the adversarial settings, where the adversary aims at inferring information about the target model's training data and test data from the model's prediction values. We develop a solution to train a second neural network that acts as the inverse of the target model to perform the inversion. The inversion model can be trained with black-box accesses to the target model. We propose two main techniques towards training the inversion model in the adversarial settings. First, we leverage the adversary's background knowledge to compose an auxiliary set to train the inversion model, which does not require access to the original training data. Second, we design a truncation-based technique to align the inversion model to enable effective inversion of the target model from partial predictions that the adversary obtains on victim user's data. We systematically evaluate our inversion approach in various machine learning tasks and model architectures on multiple image datasets. Our experimental results show that even with no full knowledge about the target model's training data, and with only partial prediction values, our inversion approach is still able to perform accurate inversion of the target model, and outperform previous approaches.

研究の動機と目的

攻撃者が元の学習データにアクセスできない敵対的状況下でのモデル逆転を解決すること。
ターゲットモデルの予測出力へのブラックボックスアクセスのみを用いて、効果的な逆転を可能にすること。
部分的または切断された予測ベクトルによる再構築精度の著しい制限を克服すること。
元の学習データを必要とせず、より広範な分布からの補助データに依存する学習ベースの逆転アプローチを開発すること。
ソーシャルメディアで一般的に共有されるトップ-k予測出力のような現実的な制約下でも、逆転の耐性と再構築の正確性を向上させること。

提案手法

元の学習データではなく、より一般的なデータ分布から抽出した合成的補助データセットを用いて、逆方向ニューラルネットワークを訓練する。
低信頼度スコアをマスクすることで、部分的予測ベクトルに対応できる切断ベースの訓練技術を導入する。
訓練中に切断された予測ベクトルを逆方向モデルの入力として使用することで、実世界の状況（トップ-k予測のみが利用可能）に一般化できるようにする。
ターゲットモデルの予測空間と補助データ分布との間の構造的類似性を活用し、一般化性能と再構築品質を向上させる。
予測出力のみを監視として用い、生成された入力と真の入力との差を最小化する再構築損失を最適化することで、逆方向モデルを最適化する。
訓練済みの逆方向モデルを用いて、勾配情報やモデルアーキテクチャの詳細を必要とせずに、ブラックボックス予測（切断済みを含む）から入力を再構築する。

実験結果

リサーチクエスチョン

RQ1攻撃者が元の学習データにアクセスできない状況でも、モデル逆転攻撃が有効に機能するか？
RQ2部分的（例：トップ-k）予測ベクトルしか入手できない場合、逆転性能をどのように維持できるか？
RQ3より広い分布からの抽出補助データが、元の学習データに代わって逆方向モデルの訓練に有効に機能するか？
RQ4切断ベースの訓練により、部分的予測に対して逆方向モデルの耐性が向上するか？
RQ5敵対的制約下で、最適化ベースおよび完全データ学習ベースのアプローチと比較して、提案手法の再構築品質はどのように差がつくか？

主な発見

提案手法は、予測ベクトルの1/5しか利用できない状況でも、従来の最適化ベース手法よりも著しく高い再構築品質を達成している。
元の学習データへのアクセスを必要としない補助データで訓練した逆方向モデルは、元の学習データを必要とする学習ベース手法を上回り、補助データ戦略の有効性を示している。
切断ベースの訓練技術により、逆方向モデルは部分的予測に一般化可能となり、過学習の低減と耐性の向上が達成された。
CelebA や ImageNet などの画像データセットにおいて、トップ5またはトップ10の予測からも、意味的に意味のある画像を高視覚的正確性で再構築できた。
ブラックボックスおよび部分的予測制約下において、MIA などの従来の学習ベース手法よりも、データ再構築および訓練クラス推論タスクの両方で優れた性能を発揮した。
結果から、一見粗い予測情報（例：トップ-kスコア）であっても、非常に高い正確性での再構築が可能であることが示され、実世界のMLデプロイメントにおける深刻なプライバシーリスクを浮き彫りにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。