[論文レビュー] Label-Only Membership Inference Attacks
本論文は、入力摂動下で予測ラベルの頑健性を用いて学習データの所属を推測するラベルのみのメンバーシップ推定攻撃を導入し、信頼度ベースの攻撃と同等またはそれを上回るとともに、信頼度マスキング防御を突破する。
Membership inference attacks are one of the simplest forms of privacy leakage for machine learning models: given a data point and model, determine whether the point was used to train the model. Existing membership inference attacks exploit models' abnormal confidence when queried on their training data. These attacks do not apply if the adversary only gets access to models' predicted labels, without a confidence measure. In this paper, we introduce label-only membership inference attacks. Instead of relying on confidence scores, our attacks evaluate the robustness of a model's predicted labels under perturbations to obtain a fine-grained membership signal. These perturbations include common data augmentations or adversarial examples. We empirically show that our label-only membership inference attacks perform on par with prior attacks that required access to model confidences. We further demonstrate that label-only attacks break multiple defenses against membership inference attacks that (implicitly or explicitly) rely on a phenomenon we call confidence masking. These defenses modify a model's confidence scores in order to thwart attacks, but leave the model's predicted labels unchanged. Our label-only attacks demonstrate that confidence-masking is not a viable defense strategy against membership inference. Finally, we investigate worst-case label-only attacks, that infer membership for a small number of outlier data points. We show that label-only attacks also match confidence-based attacks in this setting. We find that training models with differential privacy and (strong) L2 regularization are the only known defense strategies that successfully prevents all attacks. This remains true even when the differential privacy budget is too high to offer meaningful provable guarantees.
研究の動機と目的
- ハードラベルのみが利用可能な場合のメンバーシップ推定脅威を動機付け、形式化する。
- 摂動と頑健性を活用して所属を明らかにするラベルのみの攻撃を開発する。
- ラベルのみの攻撃を信頼度ベースの攻撃と比較し、一般的な防御を評価する。
- 標準的な正則化、データ拡張、差分プライバシーがメンバーシップリークに与える影響を評価する。
提案手法
- ベースラインギャップ攻撃を、ラベル情報のみを用いる単純な予測器として定義する。
- (i)所属を探るデータ拡張プロキシ、(ii)ラベルのみの摂動と adversarial-like の問合せによる決定境界までの距離プロキシ、(iii)複数の問合せを組み合わせて信号を改善する、に基づくラベルのみの攻撃を導入する。
- データ拡張(回転、平移)と境界までの距離尺度を用いてプロキシ信頼度を生成する。
- ラベルのみの adversarial な歩行(HopSkipJump)とランダム化/ノイズベースの頑健性検査を用いて決定境界までの距離を推定する。
- シャドウモデル上で意思決定閾値を調整し、それをターゲットモデルへ転移させる。
- 複数のデータセットとモデルタイプに渡って攻撃クエリコストと有効性を評価する。
実験結果
リサーチクエスチョン
- RQ1ラベルのみのメンバーシップ推定は、完全な信頼度スコアに依存する攻撃と同等またはそれを上回ることができるか?
- RQ2信頼度マスキング防御(例:MemGuard、敵対的正則化)はラベルのみの攻撃に対して保護されるか?
- RQ3ラベルのみの攻撃のクエリ複雑性と実用コストはどの程度か?
- RQ4ラベルのみおよび信頼度ベースの攻撃のの下で、どの防御が所属リークを効果的に軽減するか?
- RQ5標準的な正則化手法と差分プライバシーはラベルのみのメンバーシップリークにどう影響するか?
主な発見
- ラベルのみの攻撃は複数のデータセットで信頼度ベクトル攻撃と同等であり、組み合わせるとそれを上回ることがある。
- MemGuardや敵対的正則化などの信頼度マスキング防御はラベルのみの攻撃からの保護に失敗する。
- 訓練時のデータ拡張はラベルのみの攻撃によるリークを増加させる可能性がある一方で、過剰適合を減らし精度を向上させる。
- 強いL2正則化または差分プライバシー訓練はリークを有意に低減できるが、しばしば精度とのトレードオフが生じる。
- 転移学習は一部の設定でリークを低減することがある;完全なファインチューニングはリークを増加させる可能性があり、最後の層のみの調整は通常リークを低減する。
- 数千クエリ程度のクエリ予算で強力なMI信号をすでに得られる場合がある。小さな摂動(回転、平移)でも非自明なリークを生む。
- 異常値MIと最悪ケースの入力リークについて議論され、保護には信頼度マスキングを超えた防御が必要であることを強調している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。