[論文レビュー] Thieves on Sesame Street! Model Extraction of BERT-based APIs
本論文は、攻撃者がクエリ出力のみを用いてBERT-largeベースのモデルを効果的に抽出できることを示し、意味をなさない入力であっても可能である点を示すとともに、メンバーシップ分類やウォーターマーキングといった防御手段を分析する。
We study the problem of model extraction in natural language processing, in which an adversary with only query access to a victim model attempts to reconstruct a local copy of that model. Assuming that both the adversary and victim model fine-tune a large pretrained language model such as BERT (Devlin et al. 2019), we show that the adversary does not need any real training data to successfully mount the attack. In fact, the attacker need not even use grammatical or semantically meaningful queries: we show that random sequences of words coupled with task-specific heuristics form effective queries for model extraction on a diverse set of NLP tasks, including natural language inference and question answering. Our work thus highlights an exploit only made feasible by the shift towards transfer learning methods within the NLP community: for a query budget of a few hundred dollars, an attacker can extract a model that performs only slightly worse than the victim model. Finally, we study two defense strategies against model extraction---membership classification and API watermarking---which while successful against naive adversaries, are ineffective against more sophisticated ones.
研究の動機と目的
- BERTベースのモデルを提供するNLP APIに対するモデル抽出リスクを動機づけ、正式に定式化する。
- 攻撃者が実データなしで高性能なNLPモデルを再現できることを実証する。
- 事前学習とアーキテクチャの選択が抽出品質に与える影響を評価する。
- 単純な防御を評価し、それらの限界について議論する。
提案手法
- 被害者モデル g_T をNLPタスクのために微調整されたBERTベースのシステムとして定義する。
- 実データなしで入力-出力ペアを生成するために、タスク固有のクエリ生成器(ランダムおよびWiki由来)とヒューリスティクスを使用する。
- 収集した (x_i, g_T(x_i)) 上で公開ベースのBERTを微調整して抽出モデル g'_T を得る。
- オリジナルの開発セットに対するAccuracyと、被害者モデルと抽出モデルのAgreementを用いて抽出を評価する。
- 出力タイプ(確率 vs. argmax)が抽出に与える影響を調べる。
- 異なる攻撃者アーキテクチャ(BERT-large/base、XLNet)および学習データの混合(original/wiki/random)を用いて実験する。
- メンバーシップ分類やウォーターマーキングなどの防御、未回答質問設定を含めてテストする。
実験結果
リサーチクエスチョン
- RQ1無意味な入力でブラックボックスのBERTベースAPIをクエリして、攻撃者が高性能なNLPモデルを再現できるか?
- RQ2クエリタイプ(ランダム vs. Wiki由来)とタスクのヒューリスティクスが抽出精度とモデル同等性にどう影響するか?
- RQ3攻撃者の事前学習とアーキテクチャの不一致が抽出成功に与える影響は?
- RQ4メンバーシップ分類やウォーターマーキングのような単純な防御は適応的な攻撃者に対して有効か?
主な発見
| タスク | モデル | 正確度 | 同意度 |
|---|---|---|---|
| SST2 | victim | 93.1% | - |
| SST2 | random | 90.1% | 92.8% |
| SST2 | wiki | 91.4% | 94.9% |
| SST2 | wiki-argmax | 91.3% | 94.2% |
| MNLI | victim | 85.8% | - |
| MNLI | random | 76.3% | 80.4% |
| MNLI | wiki | 77.8% | 82.2% |
| MNLI | wiki-argmax | 77.1% | 80.9% |
| SQuAD 1.1 | victim | 90.6 F1, 83.9 EM | - |
| SQuAD 1.1 | random | 79.1 F1, 68.5 EM | 78.1 F1, 66.3 EM |
| SQuAD 1.1 | wiki | 86.1 F1, 77.1 EM | 86.6 F1, 77.6 EM |
| BoolQ | victim | 76.1% | - |
| BoolQ | wiki | 66.8% | 72.5% |
| BoolQ | wiki-argmax | 66.0% | 73.0% |
- 抽出モデルは、意味の通らない入力で訓練した場合でも、元の開発セットで高い精度を達成する。
- Wiki由来およびランダムなクエリは効果的な抽出を生み、ターゲットタスクの高い精度と被害者に対するAgreementは変動する。
- より強力なモデル(例:XLNet-large)で攻撃者を事前訓練すると、被害者アーキテクチャが不一致であっても抽出性能を改善できる。
- アーキテクチャを一致させると一般に抽出は改善されるが、より強力な攻撃者モデルは不一致を上回ることがある(例:SQuADでXLNetがBERTベースの攻撃者を上回る)。
- メンバーシップ分類のような防御はナイーブな攻撃者を遅らせることはできても適応型の攻撃者には不十分である。ウォーターマーキングは水印付きクエリで盗用を明らかにできるが、完全な解決策ではない。
- 抽出は依然としてコスト効率が高く(しばしば数百ドル)、複数のタスクで被害者モデルにほぼ匹敵する性能を発揮できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。