Skip to main content
QUICK REVIEW

[论文解读] Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks

Abhinav Rao, Sachin Vashistha|arXiv (Cornell University)|May 24, 2023
Digital and Cyber Forensics被引用 15
一句话总结

本论文将大型语言模型的越狱(提示注入)形式化,提出一个分类法和形式化的设置,调查不同模型的攻击有效性,并讨论轻量级的防护措施与检测策略。

ABSTRACT

Recent explorations with commercial Large Language Models (LLMs) have shown that non-expert users can jailbreak LLMs by simply manipulating their prompts; resulting in degenerate output behavior, privacy and security breaches, offensive outputs, and violations of content regulator policies. Limited studies have been conducted to formalize and analyze these attacks and their mitigations. We bridge this gap by proposing a formalism and a taxonomy of known (and possible) jailbreaks. We survey existing jailbreak methods and their effectiveness on open-source and commercial LLMs (such as GPT-based models, OPT, BLOOM, and FLAN-T5-XXL). We further discuss the challenges of jailbreak detection in terms of their effectiveness against known attacks. For further analysis, we release a dataset of model outputs across 3700 jailbreak prompts over 4 tasks.

研究动机与目标

  • 将越狱问题形式化为多参与者设置下的提示注入。
  • 制定越狱类型、意图和攻击方式的分类法。
  • 在多种模型和任务上进行经验评估攻击有效性。
  • 提出并评估受限的提示防护策略以缓解。
  • 讨论在检测和防御越狱方面的挑战。

提出的方法

  • 定义一个含提词者、最终用户和错配/攻击概念的正式提示框架。
  • 按语言转换、攻击者意图和攻击方式对越狱进行分类。
  • 设计并执行性质测试以衡量在不同任务(翻译、分类、代码生成、摘要)和模型(OPT、BLOOM、GPT-3.5、FLAN-T5-xxl)下攻击引起的任务偏差。
  • 使用基础提示和49个手工设计的攻击提示来评估跨任务和模型的攻击成功率。
  • 分析模型行为的定性特征以解释性能差异并识别防护措施的有效性(提示格式与校验和)。
  • 讨论受限的缓解策略(批量提示防护、校验和防护)及其观测效果。
Figure 1: A jailbreaking pipeline. (Attack borrowed from a social media post 2 2 2 shorturl.at/hjkmX )
Figure 1: A jailbreaking pipeline. (Attack borrowed from a social media post 2 2 2 shorturl.at/hjkmX )

实验结果

研究问题

  • RQ1如何在变换类型、意图和攻击方式方面对大型语言模型中的越狱进行形式化和分类?
  • RQ2各种越狱在不同模型和任务中的有效性如何?
  • RQ3哪些轻量级防御(提示防护)可以缓解越狱,它们的效果如何?
  • RQ4哪些因素(模型规模、训练、架构)影响对越狱的鲁棒性?

主要发现

  • 认知黑客攻击是所测试中最成功的攻击类型,也是现实世界越狱中最常见的。
  • 分类任务在所测试条件下没有出现成功的越狱,而其他任务更易受攻击。
  • 与 OPT 和 BLOOM 相比,FLAN-T5-XXL 在大多数维度上通常表现较差,在摘要方面的攻击成功率尤其低。
  • GPT-3.5 text-davinci-003 在许多攻击中表现出更强的鲁棒性,表明其训练中可能有更强的对齐或鲁棒性。
  • 提示防护(特别是针对 text-davinci-003)对直接指令攻击有效,表明潜在的实际缓解措施。
  • 该工作强调在防御设计中需要进行净化、预处理,并认识到模型功能性与安全性的权衡。
Figure 2: Setup describing the attack process and manner of attack
Figure 2: Setup describing the attack process and manner of attack

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。