Skip to main content
QUICK REVIEW

[论文解读] Thieves of Sesame Street: Model Extraction on BERT-based APIs

Kalpesh Krishna, Gaurav Singh Tomar|arXiv (Cornell University)|Jan 1, 2020
Adversarial Robustness in Machine Learning参考文献 42被引用 32
一句话总结

本文表明,攻击者仅通过查询访问即可提取基于 BERT 的 NLP 模型,方法是使用随机词序列和特定任务的启发式策略,在低成本下实现接近受害模型的性能,凸显了迁移学习中的关键安全漏洞。此外,本文评估了成员身份分类和水印技术等防御措施,发现高级攻击者可绕过这些防御。

ABSTRACT

We study the problem of model extraction in natural language processing, in which an adversary with only query access to a victim model attempts to reconstruct a local copy of that model. Assuming that both the adversary and victim model fine-tune a large pretrained language model such as BERT (Devlin et al., 2019), we show that the adversary does not need any real training data to successfully mount the attack. In fact, the attacker need not even use grammatical or semantically meaningful queries: we show that random sequences of words coupled with task-specific heuristics form effective queries for model extraction on a diverse set of NLP tasks including natural language inference and question answering. Our work thus highlights an exploit only made feasible by the shift towards transfer learning methods within the NLP community: for a query budget of a few hundred dollars, an attacker can extract a model that performs only slightly worse than the victim model. Finally, we study two defense strategies against model extraction—membership classification and API watermarking—which while successful against some adversaries can also be circumvented by more clever ones.

研究动机与目标

  • 调查仅通过 API 查询访问即可提取基于 BERT 的模型的可行性。
  • 评估在 NLP 中成功进行模型提取是否需要真实训练数据。
  • 评估成员身份分类和 API 水印等防御机制的有效性。
  • 理解 NLP 中的迁移学习如何为模型提取开辟新的攻击面。

提出的方法

  • 攻击者生成随机词序列作为受害 API 的输入,从而无需使用语义上有意义或语法正确的查询。
  • 应用特定任务的启发式策略,根据预期的模型输出来指导查询选择,以提高提取效率。
  • 攻击者收集来自受害模型的输入-输出对,用于训练一个本地代理模型,以模仿其行为。
  • 在下游 NLP 任务(如自然语言蕴涵和问答)上评估提取的模型。
  • 测试两种防御策略:通过成员身份分类检测提取尝试,以及通过 API 水印追踪模型副本。
  • 在数百美元的预算限制下评估攻击,以模拟现实中的资源限制。

实验结果

研究问题

  • RQ1仅通过查询访问的攻击者是否可以在不访问真实训练数据或有意义输入序列的情况下提取基于 BERT 的模型?
  • RQ2随机词序列在提取高性能 NLP 模型方面有多有效?
  • RQ3成员身份分类和水印防御在多大程度上能阻止模型提取攻击?
  • RQ4高级攻击者能否绕过现有模型提取攻击中的防御机制?

主要发现

  • 当与特定任务的启发式策略结合时,随机词序列可在多种 NLP 任务上实现高效的模型提取。
  • 即使没有真实训练数据,提取的模型性能也能与受害模型相差几个百分点以内。
  • 在查询成本低于数百美元的情况下,模型提取是可行的,构成实际威胁。
  • 更复杂的攻击者可以绕过成员身份分类和水印防御机制。
  • 该漏洞主要源于生产环境中广泛使用迁移学习和微调后的 BERT 模型。
  • 结果凸显了依赖基于查询访问强大语言模型的 NLP 系统中存在关键的安全缺口。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。