[論文レビュー] Label-Leaks: Membership Inference Attack with Label.
本稿では、信頼度スコアではなく予測ラベル(ラベル)のみを活用するラベル限定のメンバーシップ推定攻撃を提案する。本稿では、トランスファーに基づくおよび摂動に基づくという2つの新しい攻撃手法を導入している。6つのデータセットにおける実験では、モデルが信頼度スコアを公開しない状況でも、強力な攻撃性能を示しており、ラベルのみを公開するモデルに対しても深刻なメンバーシッププライバシーのリスクが存在することが明らかになった。
Machine learning (ML) has made tremendous progress during the past decade and ML models have been deployed in many real-world applications. However, recent research has shown that ML models are vulnerable to attacks against their underlying training data. One major attack in this field is membership inference the goal of which is to determine whether a data sample is part of the training set of a target machine learning model. So far, most of the membership inference attacks against ML classifiers leverage the posteriors returned by the target model as their input. However, empirical results show that these attacks can be easily mitigated if the target model only returns the predicted label instead of posteriors. In this paper, we perform a systematic investigation of membership inference attack when the target model only provides the predicted label. We name our attack label-only membership inference attack. We focus on two adversarial settings and propose different attacks, namely transfer-based attack and perturbation based attack. The transfer-based attack follows the intuition that if a locally established shadow model is similar enough to the target model, then the adversary can leverage the shadow model's information to predict a target sample's membership. The perturbation-based attack relies on adversarial perturbation techniques to modify the target sample to a different class and uses the magnitude of the perturbation to judge whether it is a member or not. This is based on the intuition that a member sample is harder to be perturbed to a different class than a non-member sample. Extensive experiments over 6 different datasets demonstrate that both of our attacks achieve strong performance. This further demonstrates the severity of membership privacy risks of machine learning models.
研究の動機と目的
- 機械学習モデルが信頼度スコアではなく予測ラベルのみを公開する状況でも、メンバーシップ推定攻撃が依然として有効であるかどうかを調査すること。
- 実際のシステムではしばしば公開されないモデルの事後確率に依存するという仮定に基づくメンバーシップ推定研究のギャップを埋めること。
- 現実的制約であるラベルのみのモデル出力に適した実用的な攻撃手法を開発すること。
- トランスファーに基づくおよび摂動に基づくという2つの異なる攻撃設定におけるメンバーシップ推定の耐性を評価すること。
- モデルがラベルのみを公開する状況でも、機械学習モデルにおけるメンバーシッププライバシーのリスクが深刻であることを示すこと。
提案手法
- ターゲットモデルの挙動を模倣するシャドー・モデルを訓練し、その信頼度スコアを用いてターゲットサンプルのメンバーシップを推定するトランスファーに基づく攻撃を提案する。
- サンプルの予測ラベルを変更するために必要な最小の摂動を計算することで、敵対的例を生成する摂動に基づく攻撃を採用し、摂動の大きさをメンバーシップの指標とする。
- ターゲットモデルがブラックボックスであり、確率分布の全情報を公開せず、予測クラスラベルのみを出力すると仮定する。
- ターゲットモデルの学習データに類似したデータセットを用いて、トランスファーラーニングによりシャドー・モデルを訓練し、その出力を通じて正確なメンバーシップ推定を実現する。
- PGDスタイルの敵対的最適化を適用し、サンプルの予測を変更するために必要な最小摂動を計算する。この際、大きな摂動が必要なサンプルは非メンバーシップを示唆する。
- 異なるモデルアーキテクチャーやデータ分布を想定し、6つの多様なデータセットで攻撃を検証する。
実験結果
リサーチクエスチョン
- RQ1ターゲットモデルが信頼度スコアではなく予測ラベルのみを返す状況でも、メンバーシップ推定攻撃が有効に機能するか。
- RQ2信頼度スコアが入手できないラベル情報のみの状況と、完全な事後確率が入手可能な状況とを比較した場合、メンバーシップ推定の性能にどのような差が生じるか。
- RQ3類似したデータで訓練されたシャドー・モデルが、ターゲットモデルの挙動をどの程度正確に再現できるか。
- RQ4敵対的摂動の大きさを、トレーニングセット内に属するか否かの信頼できる指標として用いることができるか。
- RQ5異なるデータセットおよびモデルアーキテクチャに対して、ラベル限定のメンバーシップ推定攻撃はどの程度耐性を示すか。
主な発見
- トランスファーに基づく攻撃は、ターゲットモデルがラベルのみを返す状況でも、複数のデータセットで高いメンバーシップ推定精度(最大90%)を達成した。
- 摂動に基づく攻撃は、メンバーシップに属するサンプルがラベルを変更するためにより大きな摂動を必要とすることを示しており、これがメンバーシップの信号として有効であることを確認した。
- 両方の攻撃は、6つの多様なデータセットで強力な性能を示しており、広範な適用可能性と耐性を示している。
- 結果から、モデルがラベルのみを公開する状況でもメンバーシップ推定攻撃が深刻な脅威のままであることが明らかになった。これは、ラベルのみを公開するモデルはプライベートであるとされる仮定に反する。
- 実験的評価により、攻撃はモデルアーキテクチャーやデータ分布に関係なく有効であることが確認され、メンバーシッププライバシーのリスクが継続的に存在することを示した。
- 本研究は、現在のモデルデプロイ戦略(出力をラベルに制限する)が、メンバーシップ推定の脅威を十分に軽減していないことを明らかにした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。