[論文レビュー] Scalable Membership Inference Attacks via Quantile Regression
一つのモデルによる分位回帰攻撃を用いたメンバーシップ推定で、シャドーモデル攻撃と競合しつつ、はるかに低コストでブラックボックス設定でも利用可能である。真偽の信頼度スコア分位を予測する一つの分位モデルを訓練し、特にImageNetのような大規模データセットで高い偽陽性率を抑えつつ強い真陽性性能を達成する。
Membership inference attacks are designed to determine, using black box access to trained models, whether a particular example was used in training or not. Membership inference can be formalized as a hypothesis testing problem. The most effective existing attacks estimate the distribution of some test statistic (usually the model's confidence on the true label) on points that were (and were not) used in training by training many \emph{shadow models} -- i.e. models of the same architecture as the model being attacked, trained on a random subsample of data. While effective, these attacks are extremely computationally expensive, especially when the model under attack is large. We introduce a new class of attacks based on performing quantile regression on the distribution of confidence scores induced by the model under attack on points that are not used in training. We show that our method is competitive with state-of-the-art shadow model attacks, while requiring substantially less compute because our attack requires training only a single model. Moreover, unlike shadow model attacks, our proposed attack does not require any knowledge of the architecture of the model under attack and is therefore truly ``black-box". We show the efficacy of this approach in an extensive series of experiments on various datasets and model architectures.
研究の動機と目的
- シャドーモデルベースのメンバーシップ推定攻撃の計算効率の悪さを動機づけ、対処する。
- 訓練データでないデータに対して信頼度スコア分位を予測する単一モデルを用いる分位回帰アプローチを提案する。
- 提案手法がモデル・アーキテクチャ非依存であり、ターゲットモデルの詳細な知識なしにブラックボックス攻撃を可能にすることを示す。
- 攻撃が所望の偽陽性率を達成するという理論的保証を提供し、グループ条件付き分位の一貫性を探る。
提案手法
- テスト統計量 s(x,y) を真のラベルに対する信頼度ロジットギャップとして定義する。
- (x, s(x,y)) に対して分位回帰モデル q を訓練し、x を与えたときの s の(1-α) 分位を予測する(ピンボール損失を最小化)。
- s(x,y) ≥ q(x) の場合に訓練データメンバーシップをフラグ付けし、そうでない場合はフラグを付けない攻撃 A_q を構築する。
- 緩い条件の下で、適切な移動に閉じたモデルクラスに対して FPR(A_q) = α であることを証明する。
- α を変えることで FPR と TPR の ROC トレードオフ曲線を得られることを示す。
- モデル非依存性を示す:攻撃は f から信頼度スコアを取得するための API アクセスのみを必要とし、アーキテクチャ知識は不要である。

実験結果
リサーチクエスチョン
- RQ1単一の分位回帰モデルはシャドーモデルベースのメンバーシップ推定を模倣または上回ることができ、計算コストを削減できるか。
- RQ2分位回帰攻撃は大規模データセット(ImageNet-1k)と小規模データセット(CIFAR-10/100)、および異なるアーキテクチャでどのように性能が変わるか。
- RQ3ピンボール損失を最適化することで、設定全体で信頼できる偽陽性率と堅牢な真陽性率を得られるか。
- RQ4表データのシナリオで攻撃は有効で、攻撃者がターゲットモデルの知識を限定されている場合にはどうなるか。
主な発見
| Method | C-10 | C-100 | IN-1k | C-10 | C-100 | IN-1k |
|---|---|---|---|---|---|---|
| Marginal | 48.56% | 58.81% | 47.62% | 60.94% | 65.75% | 46.81% |
| LIRA (n=2) | 78.55% | 95.21% | 62.70% | 83.18% | 98.65% | 56.04% |
| LIRA (n=4) | 80.52% | 95.87% | 89.11% | 91.48% | 98.94% | 95.18% |
| LIRA (n=6) | 83.19% | 96.20% | 93.74% | 93.17% | 99.02% | 98.38% |
| LIRA (n=8) | 83.00% | 96.07% | 94.57% | 93.70% | 98.98% | 98.73% |
| Ours | 62.95% | 79.57% | 97.45% | 64.48% | 85.41% | 99.64% |
- 分位回帰攻撃は最先端のシャドーモデルアプローチと競合し、ImageNet-1k の実験では評価点の全てでシャドーモデル法を上回る。
- 単一モデルの訓練とアーキテクチャ非依存性により、真のブラックボックス適用が可能。
- CIFAR-10/100 では、マージナルベースラインを超える改善を示すが、データサイズとモデルの複雑さによってシャドーモデル法には及ぶ場合もある。
- 大規模データセット(ImageNet-1k)では、非常に低い偽陽性率で高精度を達成(表1に顕著な改善を示す)。
- 表計算データのためには、単一モデルアプローチが LiRA の性能に匹敵しつつ、計算コストを大幅に削減(1モデル vs. 多数)する。
- ピンボール損失の最小化は、タスクを横断してより強いメンバーシップ推定性能と相関する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。