Skip to main content
QUICK REVIEW

[论文解读] Membership Inference Attacks against Language Models via Neighbourhood Comparison

Justus Mattern, Fatemehsadat Mireshghallah|arXiv (Cornell University)|May 29, 2023
Adversarial Robustness in Machine Learning被引用 4
一句话总结

本文提出了一种针对语言模型的邻域成员身份推断攻击方法,通过比较样本损失与合成生成的语义相似邻域文本的损失,无需依赖在领域内数据上训练的参考模型。该方法即使在数据不完美时仍表现出竞争力,并优于现有的无参考模型和不完美参考模型攻击方法,表明在现实威胁模型下,邻域比较是一种比基于参考的方法更具鲁棒性的替代方案。

ABSTRACT

Membership Inference attacks (MIAs) aim to predict whether a data sample was present in the training data of a machine learning model or not, and are widely used for assessing the privacy risks of language models. Most existing attacks rely on the observation that models tend to assign higher probabilities to their training samples than non-training points. However, simple thresholding of the model score in isolation tends to lead to high false-positive rates as it does not account for the intrinsic complexity of a sample. Recent work has demonstrated that reference-based attacks which compare model scores to those obtained from a reference model trained on similar data can substantially improve the performance of MIAs. However, in order to train reference models, attacks of this kind make the strong and arguably unrealistic assumption that an adversary has access to samples closely resembling the original training data. Therefore, we investigate their performance in more realistic scenarios and find that they are highly fragile in relation to the data distribution used to train reference models. To investigate whether this fragility provides a layer of safety, we propose and evaluate neighbourhood attacks, which compare model scores for a given sample to scores of synthetically generated neighbour texts and therefore eliminate the need for access to the training data distribution. We show that, in addition to being competitive with reference-based attacks that have perfect knowledge about the training data distribution, our attack clearly outperforms existing reference-free attacks as well as reference-based attacks with imperfect knowledge, which demonstrates the need for a reevaluation of the threat model of adversarial attacks.

研究动机与目标

  • 解决基于参考的成员身份推断攻击中不切实际的假设,即攻击者可访问高质量的、领域相关的训练数据用于参考模型。
  • 探究当参考数据分布与目标模型训练数据分布不同时,基于参考的攻击的脆弱性。
  • 设计一种无需访问训练数据分布的无参考成员身份推断攻击,同时保持高性能。
  • 证明通过数据增强生成的邻域进行邻域比较,可有效校准模型得分以实现成员身份推断。
  • 通过表明基于邻域的方法在隐私敏感场景中比基于参考的方法更具鲁棒性和实用性,重新评估成员身份推断攻击的威胁模型。

提出的方法

  • 通过使用掩码语言模型进行词语替换,为目标输入生成语义相似的邻域文本。
  • 计算原始样本及其每个邻域在目标语言模型下的损失。
  • 通过比较原始样本的损失与邻域平均损失来判断其成员身份。
  • 若样本损失显著低于其邻域的平均损失,则将其分类为训练成员,使用学习得到的阈值γ。
  • 采用基于邻域的校准机制以考虑样本的内在复杂度,避免依赖外部参考模型。
  • 在多种语言模型架构和数据集上训练并评估该攻击方法,与基线的基于参考和无参考攻击进行性能比较。

实验结果

研究问题

  • RQ1当参考模型在与目标模型训练数据分布不同的数据上训练时,基于参考的成员身份推断攻击性能会如何下降?
  • RQ2使用合成生成的邻域进行邻域比较,能否作为基于参考模型在成员身份推断攻击中的可行替代方案?
  • RQ3所提出的邻域攻击与具备完美知识的基于参考攻击及无任何训练数据访问的无参考攻击相比,性能如何?
  • RQ4邻域方法在多大程度上缓解了简单基于损失的攻击中观察到的假阳性偏差?
  • RQ5在无法获取领域内训练数据的隐私敏感领域中,邻域攻击是否仍保持有效性?

主要发现

  • 基于参考的攻击(如似然比攻击,LiRA)在参考模型训练分布与目标模型训练数据分布不同时表现出高度脆弱性,导致性能显著下降。
  • 所提出的邻域攻击即使在无访问训练数据分布的情况下,性能仍可与具备完美知识的基于参考攻击相媲美。
  • 该邻域攻击显著优于现有无参考攻击及使用不完美参考数据的基于参考攻击,证明其在现实威胁模型下的鲁棒性。
  • 通过基于邻域的损失校准,该方法有效降低了假阳性率,从而考虑了样本的内在复杂度。
  • 该攻击在多种语言模型架构和数据集上均保持有效性,表明其具有广泛适用性。
  • 结果表明,当前成员身份推断攻击的威胁模型可能过于乐观,未来威胁与防御分析应考虑基于邻域的方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。