[论文解读] Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
论文介绍TAP,一种自动化的黑箱越狱方法,使用树状思考推理和剪枝来生成语义上有意义的提示,相较于以往工作,在更少的查询下实现更高的越狱成功率。
While Large Language Models (LLMs) display versatile functionality, they continue to generate harmful, biased, and toxic content, as demonstrated by the prevalence of human-designed jailbreaks. In this work, we present Tree of Attacks with Pruning (TAP), an automated method for generating jailbreaks that only requires black-box access to the target LLM. TAP utilizes an attacker LLM to iteratively refine candidate (attack) prompts until one of the refined prompts jailbreaks the target. In addition, before sending prompts to the target, TAP assesses them and prunes the ones unlikely to result in jailbreaks, reducing the number of queries sent to the target LLM. In empirical evaluations, we observe that TAP generates prompts that jailbreak state-of-the-art LLMs (including GPT4-Turbo and GPT4o) for more than 80% of the prompts. This significantly improves upon the previous state-of-the-art black-box methods for generating jailbreaks while using a smaller number of queries than them. Furthermore, TAP is also capable of jailbreaking LLMs protected by state-of-the-art guardrails, e.g., LlamaGuard.
研究动机与目标
- 激发对自动化、黑箱越狱的研究,以理解LLM的安全边界和对齐漏洞。
- 开发一种查询高效的方法,在不访问模型内部的情况下生成越狱提示。
- 利用树状思考推理和剪枝来在不增加不必要查询的情况下探索大量提示空间。
- 在多样化的目标LLM上评估TAP,并与最先进的基线进行比较。
- 分析剪枝、树状思考、评估者选择以及攻击的可迁移性等因素。
提出的方法
- TAP 使用三个LLM:一个生成越狱提示的攻击者,一个评估者来判断越狱成功与主题相关性,以及一个将被越狱的目标LLM。
- 提示通过树结构细化,深度d,宽度w,分支因子b,使用树状思考推理。
- 第1阶段剪枝在查询目标前移除离题提示,减少无效查询。
- 第2阶段剪枝按评估者分数保留前w个提示,形成树的下一层。
- 该过程重复,直到找到越狱或达到最大深度,总目标查询次数由b、w、d的函数界定。
- 该方法是PAIR的泛化,结合树状思考推理与剪枝来减少冗余和离题提示的改进。
实验结果
研究问题
- RQ1是否能够通过对语义明确的提示进行查询高效的搜索,有效实现自动化的黑箱越狱?
- RQ2树状思考推理和对题剪枝是否提高越狱成功率并减少对目标模型的查询次数?
- RQ3TAP在多种目标LLM上的表现如何与PAIR及其他基线相比?
- RQ4评估者选择和剪枝对越狱成功率与查询效率有何影响?
- RQ5生成的越狱提示在不同LLM之间是否具有可转移性?
主要发现
- TAP 在跨目标模型时,能对显著更大比例的提示找到越狱,相较于PAIR。
- 在 GPT4-Turbo 上,TAP 能越狱 84-90% 的提示,查询次数显著少于 PAIR(如,平均查询次数 22.5–28.8)。
- 剪枝离题提示(阶段1)显著减少总查询次数并提高成功率。
- 树状思考分支(非零 b)显著提高成功率,相对于单分支变体。
- 评估者作用重要;使用GPT-4作为评估者比某些替代方案表现更好,关于最佳评估者选择仍有开放问题。
- 可转移性:许多TAP生成的越狱提示可迁移到其他模型,但有显著例外,如Llama-2-Chat-7B。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。