QUICK REVIEW

[論文レビュー] Membership Inference Attacks From First Principles

Nicholas Carlini, Steve Chien|arXiv (Cornell University)|Dec 7, 2021

Adversarial Robustness in Machine Learning被引用数 30

ひとこと要約

本論文は会員推測攻撃の平均ケース評価を批判し、LiRA（Likelihood Ratio Attack）を導入する。LiRAは非常に低い偽陽性率で最大10倍の真陽性率を達成し、複数のデータセットで実証された。

ABSTRACT

A membership inference attack allows an adversary to query a trained machine learning model to predict whether or not a particular example was contained in the model's training dataset. These attacks are currently evaluated using average-case "accuracy" metrics that fail to characterize whether the attack can confidently identify any members of the training set. We argue that attacks should instead be evaluated by computing their true-positive rate at low (e.g., <0.1%) false-positive rates, and find most prior attacks perform poorly when evaluated in this way. To address this we develop a Likelihood Ratio Attack (LiRA) that carefully combines multiple ideas from the literature. Our attack is 10x more powerful at low false-positive rates, and also strictly dominates prior attacks on existing metrics.

研究の動機と目的

会員推測攻撃は平均ケース指標ではなく、低偽陽性率での真陽性率によって評価されるべきだと主張する。
個々の例の難易度とガウス尤度推定を組み合わせた原理的な攻撃を開発する。
従来の攻撃が低FPRで劣ることを示し、LiRAが多様なデータセットで優れた性能を示す。

提案手法

対象の例に対する IN（in-training）と OUT（out-training）分布の間の仮説検定として会員推測を正式化する。
シャドーモデルを用いて IN および OUT シナリオ下での個別損失分布を推定し、ロジット変換した信頼度に対してガウス分布を適合させる。
IN と OUT の尤度の比を用いて会員性を判定する Likelihood Ratio Test (LiRA) を導出する。
精度と効率のバランスを取るため、オンライン（クエリごとにシャドーモデルを用いる）およびオフライン（事前学習済みシャドーモデル）という LiRA のバリアントを提供し、
LiRA を多変量クエリへ拡張し、対象ごとに複数の拡張サンプルを用いてロジット空間で多変量ガウス分布を形成する。
再現性のためのオープンソース実装を提供する。

実験結果

リサーチクエスチョン

RQ1非常に低い偽陽性率で実際のプライバシーリスクを反映するように、会員推測攻撃はどのように評価されるべきか？
RQ2個々の例の難易度を利用した尤度比フレームワークは、従来の攻撃に対して会員推測の有効性を大幅に改善できるか？
RQ3シャドーモデルに基づく推定は、データセットとモデルアーキテクチャ間で一般化して、強力な LiRA の導入を可能にするか？
RQ4効率と精度の観点から、オンライン LiRA とオフライン LiRA のトレードオフは何か？
RQ5LiRA は CIFAR-10/100、ImageNet、WikiText-103 データセットでどのように性能を示すか？

主な発見

LiRA は偽陽性率が低い領域で従来の攻撃を概ね10倍上回り、92% のテスト精度の CIFAR-10 モデルでの評価で示された。
従来の攻撃は FPR が0.1% 未満のとき真陽性率が限られており、しばしば AUC などの総合指標が誤解を招く。
モデルの信頼度はロジット空間で分析する方が適切であり、個々の例ごとにIN/OUT分布をガウス分布としてモデリングできる。
この攻撃は CIFAR-10/100、ImageNet、WikiText-103 などの複数データセットと大規模ベンチマークを含む訓練設定でも有効である。
LiRA のオフラインバリアントは、事前学習済みシャドーモデルと片側尤度検定を活用することで計算コストを削減しつつ高い性能を維持する。
本手法は会員推測における個々の例の難易度と記憶化挙動の重要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。