[论文解读] Detecting Language Model Attacks with Perplexity
论文显示GPT-2困惑度单独难以有效检测对抗性提示,但使用困惑度和令牌长度(通过LightGBM)的两特征分类器能有效识别机器生成的对抗性后缀攻击;人工设计的越狱提示仍然具有挑战性。
A novel hack involving Large Language Models (LLMs) has emerged, exploiting adversarial suffixes to deceive models into generating perilous responses. Such jailbreaks can trick LLMs into providing intricate instructions to a malicious user for creating explosives, orchestrating a bank heist, or facilitating the creation of offensive content. By evaluating the perplexity of queries with adversarial suffixes using an open-source LLM (GPT-2), we found that they have exceedingly high perplexity values. As we explored a broad range of regular (non-adversarial) prompt varieties, we concluded that false positives are a significant challenge for plain perplexity filtering. A Light-GBM trained on perplexity and token length resolved the false positives and correctly detected most adversarial attacks in the test set.
研究动机与目标
- 评估困惑度是否能检测为LLM越狱生成的对抗性后缀攻击。
- 研究对抗性与常规提示的困惑度分布。
- 开发一个基于困惑度和令牌序列长度的分类器,以提升相较于单纯困惑度过滤的检测效果。
- 评估在面对人工设计的越狱提示时的局限性。
提出的方法
- 使用GPT-2计算对抗性与非对抗性提示的困惑度。
- 将困惑度与序列长度可视化以评估类别分离度。
- 在训练/验证/测试集按50/25/25划分(adv/non-adv),对特征{困惑度、令牌长度}训练LightGBM分类器并优化F2分数。
- 使用F-beta分数,β=2,强调在威胁检测目标中的召回率。
- 将两特征分类器与简单的困惑度阈值基线进行比较。
- 分别报告机器生成与人工设计对抗性提示的结果。
实验结果
研究问题
- RQ1困惑度分布是否能将对抗性提示与常规提示分离,特别是对机器生成的后缀攻击?
- RQ2在困惑度基础上加入令牌长度是否能提升检测性能?
- RQ3用提出的分类器是否能检测到人工设计的越狱提示?
- RQ4在不同评估分割与阈值下检测器的性能如何?
- RQ5在 defenses 面对人工设计的越狱与机器生成的攻击时会出现哪些局限?
主要发现
- 机器生成的对抗性提示具有较高的困惑度值,大多数超过1000,有助于与常规提示区分。
- 两特征分类器(困惑度 + 令牌长度)在验证集的F2分数为95.6%,在测试集为94.2%,且包含人工设计提示。
- 在排除人工设计提示后,测试集的F2提升至99.1%。
- 简单的困惑度阈值(如400或1000)相比于GBM的94.2%有明显较低的F2分数(83.3–87.2%)。
- 来自Jaramillo的人工设计越狱提示(GPT-4越狱)未被该方法有效检测,显示对非机器生成攻击的局限性。
- 纯困惑度筛选因困惑度空间与常规提示的重叠,导致显著的假阳性和假阴性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。