QUICK REVIEW

[論文レビュー] Sampling Attacks: Amplification of Membership Inference Attacks by Repeated Queries

Shadi Rahimian, Tribhuvanesh Orekondy|arXiv (Cornell University)|Sep 1, 2020

Privacy-Preserving Technologies in Data参考文献 22被引用数 26

ひとこと要約

本稿では、信頼度スコアの必要がない状況でも、予測ラベルのみを用いて機械学習モデルに対する効果的なメンバー情報推定攻撃を実現する、新しいサンプリング攻撃を提案する。スコアが利用可能な場合、標準的手法の性能を最大で100%まで達成する。また、DP-SGD や出力摂動といった防御手法が依然として有効であることを示し、DP-Logits は最小限のユーティリティコストで強力なプライバシー保護を提供することが可能である。

ABSTRACT

Machine learning models have been shown to leak information violating the privacy of their training set. We focus on membership inference attacks on machine learning models which aim to determine whether a data point was used to train the victim model. Our work consists of two sides: We introduce sampling attack, a novel membership inference technique that unlike other standard membership adversaries is able to work under severe restriction of no access to scores of the victim model. We show that a victim model that only publishes the labels is still susceptible to sampling attacks and the adversary can recover up to 100% of its performance compared to when posterior vectors are provided. The other sides of our work includes experimental results on two recent membership inference attack models and the defenses against them. For defense, we choose differential privacy in the form of gradient perturbation during the training of the victim model as well as output perturbation at prediction time. We carry out our experiments on a wide range of datasets which allows us to better analyze the interaction between adversaries, defense mechanism and datasets. We find out that our proposed fast and easy-to-implement output perturbation technique offers good privacy protection for membership inference attacks at little impact on utility.

研究の動機と目的

機械学習モデルに対するメンバー情報推定攻撃のプライバシーリスクに対処すること、特に信頼度スコアや後ろ向き確率が入手できない状況での対応。
信頼度スコアや後ろ向き確率へのアクセスが全くないという厳しい制約下でも動作する実用的なメンバー情報推定技術の開発。
特に DP-SGD や後処理出力摂動のような訓練時防御と比較して、後処理出力摂動防御の有効性を評価すること。
多様なデータセットにわたるメンバー情報推定攻撃と防御の包括的ベンチマークを提供し、分野における透明性と再現可能性を促進すること。

提案手法

攻撃対象モデルのラベル出力を繰り返し照会することで、真の後ろ向き確率分布を推定するサンプリング攻撃を提案。
合成データポイントを生成し、モデルの挙動をラベル応答を通じて推定するために、摂動スケール $ p^* $ を用いる。
大数の法則に基づく統計的推定手法を適用し、照会回数が増えるにつれて平均ラベル応答が真の後ろ向き確率に収束することを活用。
argmax を適用する前にモデルのログチットにノイズを追加する後処理出力摂動防御である DP-Logits を導入。既に訓練済みのモデルに対しても防御が可能である。
敵対者による訓練コストを削減するために、異なるデータセットで訓練されたシャロウモデルを用いて最適な摂動スケールを転送。
5つの多様なデータセット（CIFAR10, CIFAR100, Purchase100, Texas100, Location）を統一した評価フレームワークで用い、攻撃および防御の性能を比較。

実験結果

リサーチクエスチョン

RQ1信頼度スコアや後ろ向き確率へのアクセスが全くない状況でも、メンバー情報推定を効果的に行うことができるか？
RQ2攻撃対象モデルへの繰り返し照会回数が増えるにつれて、メンバー情報推定攻撃の性能はどのように変化するか？
RQ3訓練時防御である DP-SGD と比較して、後処理出力摂動防御（例：DP-Logits）はメンバー情報推定攻撃をどの程度軽減できるか？
RQ4敵対者が1つのデータセットから事前に訓練した摂動スケール $ p^* $ を別のデータセットに転送することで、効果的な攻撃が可能になるか？
RQ5異なるデータセットは、メンバー情報推定攻撃および防御の有効性にどのように影響を与えるか？

主な発見

信頼度スコアが利用可能な状況でも、ラベルのみへのアクセスという制約下において、提案されたサンプリング攻撃は標準的手法のAUC性能の最大95%を達成する。
Location データセットでは、ラベルのみのアクセスでもAUCが0.89に達し、後ろ向き確率への完全なアクセスを持つ攻撃と同等の性能を示す。
照会回数を10回から100回に増やすことで攻撃性能が著しく向上するが、100回を超えると効果の逓減が顕著になる。
DP-SGD は攻撃のAUCをほぼ確率的水準（例：CIFAR10では0.51）まで低下させ、強力な防御効果を示す。
DP-Logits という後処理防御は、モデルのユーティリティへの影響を最小限に抑えつつ、DP-SGD と同等の保護を実現し、レガシーモデルに対しても実用的である。
最適な摂動スケール $ p^* $ を1つのデータセットから別のデータセットに転送することで、敵対者の訓練時間を大幅に削減しつつ、性能の著しい低下を伴わずに効果的な攻撃が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。