QUICK REVIEW

[论文解读] Detecting Language Model Attacks with Perplexity

Gabriel Alon, Michael Kamfonas|arXiv (Cornell University)|Aug 27, 2023

Adversarial Robustness in Machine Learning被引用 12

一句话总结

论文显示GPT-2困惑度单独难以有效检测对抗性提示，但使用困惑度和令牌长度（通过LightGBM）的两特征分类器能有效识别机器生成的对抗性后缀攻击；人工设计的越狱提示仍然具有挑战性。

ABSTRACT

A novel hack involving Large Language Models (LLMs) has emerged, exploiting adversarial suffixes to deceive models into generating perilous responses. Such jailbreaks can trick LLMs into providing intricate instructions to a malicious user for creating explosives, orchestrating a bank heist, or facilitating the creation of offensive content. By evaluating the perplexity of queries with adversarial suffixes using an open-source LLM (GPT-2), we found that they have exceedingly high perplexity values. As we explored a broad range of regular (non-adversarial) prompt varieties, we concluded that false positives are a significant challenge for plain perplexity filtering. A Light-GBM trained on perplexity and token length resolved the false positives and correctly detected most adversarial attacks in the test set.

研究动机与目标

评估困惑度是否能检测为LLM越狱生成的对抗性后缀攻击。
研究对抗性与常规提示的困惑度分布。
开发一个基于困惑度和令牌序列长度的分类器，以提升相较于单纯困惑度过滤的检测效果。
评估在面对人工设计的越狱提示时的局限性。

提出的方法

使用GPT-2计算对抗性与非对抗性提示的困惑度。
将困惑度与序列长度可视化以评估类别分离度。
在训练/验证/测试集按50/25/25划分（adv/non-adv），对特征{困惑度、令牌长度}训练LightGBM分类器并优化F2分数。
使用F-beta分数，β=2，强调在威胁检测目标中的召回率。
将两特征分类器与简单的困惑度阈值基线进行比较。
分别报告机器生成与人工设计对抗性提示的结果。

实验结果

研究问题

RQ1困惑度分布是否能将对抗性提示与常规提示分离，特别是对机器生成的后缀攻击？
RQ2在困惑度基础上加入令牌长度是否能提升检测性能？
RQ3用提出的分类器是否能检测到人工设计的越狱提示？
RQ4在不同评估分割与阈值下检测器的性能如何？
RQ5在 defenses 面对人工设计的越狱与机器生成的攻击时会出现哪些局限？

主要发现

机器生成的对抗性提示具有较高的困惑度值，大多数超过1000，有助于与常规提示区分。
两特征分类器（困惑度 + 令牌长度）在验证集的F2分数为95.6%，在测试集为94.2%，且包含人工设计提示。
在排除人工设计提示后，测试集的F2提升至99.1%。
简单的困惑度阈值（如400或1000）相比于GBM的94.2%有明显较低的F2分数（83.3–87.2%）。
来自Jaramillo的人工设计越狱提示（GPT-4越狱）未被该方法有效检测，显示对非机器生成攻击的局限性。
纯困惑度筛选因困惑度空间与常规提示的重叠，导致显著的假阳性和假阴性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。