Skip to main content
QUICK REVIEW

[论文解读] Detecting Language Model Attacks with Perplexity

Gabriel Alon, Michael Kamfonas|arXiv (Cornell University)|Aug 27, 2023
Adversarial Robustness in Machine Learning被引用 12
一句话总结

论文显示GPT-2困惑度单独难以有效检测对抗性提示,但使用困惑度和令牌长度(通过LightGBM)的两特征分类器能有效识别机器生成的对抗性后缀攻击;人工设计的越狱提示仍然具有挑战性。

ABSTRACT

A novel hack involving Large Language Models (LLMs) has emerged, exploiting adversarial suffixes to deceive models into generating perilous responses. Such jailbreaks can trick LLMs into providing intricate instructions to a malicious user for creating explosives, orchestrating a bank heist, or facilitating the creation of offensive content. By evaluating the perplexity of queries with adversarial suffixes using an open-source LLM (GPT-2), we found that they have exceedingly high perplexity values. As we explored a broad range of regular (non-adversarial) prompt varieties, we concluded that false positives are a significant challenge for plain perplexity filtering. A Light-GBM trained on perplexity and token length resolved the false positives and correctly detected most adversarial attacks in the test set.

研究动机与目标

  • 评估困惑度是否能检测为LLM越狱生成的对抗性后缀攻击。
  • 研究对抗性与常规提示的困惑度分布。
  • 开发一个基于困惑度和令牌序列长度的分类器,以提升相较于单纯困惑度过滤的检测效果。
  • 评估在面对人工设计的越狱提示时的局限性。

提出的方法

  • 使用GPT-2计算对抗性与非对抗性提示的困惑度。
  • 将困惑度与序列长度可视化以评估类别分离度。
  • 在训练/验证/测试集按50/25/25划分(adv/non-adv),对特征{困惑度、令牌长度}训练LightGBM分类器并优化F2分数。
  • 使用F-beta分数,β=2,强调在威胁检测目标中的召回率。
  • 将两特征分类器与简单的困惑度阈值基线进行比较。
  • 分别报告机器生成与人工设计对抗性提示的结果。

实验结果

研究问题

  • RQ1困惑度分布是否能将对抗性提示与常规提示分离,特别是对机器生成的后缀攻击?
  • RQ2在困惑度基础上加入令牌长度是否能提升检测性能?
  • RQ3用提出的分类器是否能检测到人工设计的越狱提示?
  • RQ4在不同评估分割与阈值下检测器的性能如何?
  • RQ5在 defenses 面对人工设计的越狱与机器生成的攻击时会出现哪些局限?

主要发现

  • 机器生成的对抗性提示具有较高的困惑度值,大多数超过1000,有助于与常规提示区分。
  • 两特征分类器(困惑度 + 令牌长度)在验证集的F2分数为95.6%,在测试集为94.2%,且包含人工设计提示。
  • 在排除人工设计提示后,测试集的F2提升至99.1%。
  • 简单的困惑度阈值(如400或1000)相比于GBM的94.2%有明显较低的F2分数(83.3–87.2%)。
  • 来自Jaramillo的人工设计越狱提示(GPT-4越狱)未被该方法有效检测,显示对非机器生成攻击的局限性。
  • 纯困惑度筛选因困惑度空间与常规提示的重叠,导致显著的假阳性和假阴性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。