Skip to main content
QUICK REVIEW

[论文解读] Multilingual Jailbreak Challenges in Large Language Models

Yue Deng, Wenxuan Zhang|arXiv (Cornell University)|Oct 10, 2023
Topic Modeling被引用 15
一句话总结

本文揭示了 LLM 的多语言越狱漏洞,提出 MultiJail,并提出 Self-Defence 以生成多语言安全数据并减少跨语言的不安全输出。

ABSTRACT

While large language models (LLMs) exhibit remarkable capabilities across a wide range of tasks, they pose potential safety concerns, such as the ``jailbreak'' problem, wherein malicious instructions can manipulate LLMs to exhibit undesirable behavior. Although several preventive measures have been developed to mitigate the potential risks associated with LLMs, they have primarily focused on English. In this study, we reveal the presence of multilingual jailbreak challenges within LLMs and consider two potential risky scenarios: unintentional and intentional. The unintentional scenario involves users querying LLMs using non-English prompts and inadvertently bypassing the safety mechanisms, while the intentional scenario concerns malicious users combining malicious instructions with multilingual prompts to deliberately attack LLMs. The experimental results reveal that in the unintentional scenario, the rate of unsafe content increases as the availability of languages decreases. Specifically, low-resource languages exhibit about three times the likelihood of encountering harmful content compared to high-resource languages, with both ChatGPT and GPT-4. In the intentional scenario, multilingual prompts can exacerbate the negative impact of malicious instructions, with astonishingly high rates of unsafe output: 80.92\% for ChatGPT and 40.71\% for GPT-4. To handle such a challenge in the multilingual context, we propose a novel extsc{Self-Defense} framework that automatically generates multilingual training data for safety fine-tuning. Experimental results show that ChatGPT fine-tuned with such data can achieve a substantial reduction in unsafe content generation. Data is available at \url{https://github.com/DAMO-NLP-SG/multilingual-safety-for-LLMs}.

研究动机与目标

  • 在无意和有意场景下识别并表征 LLM 的多语言越狱风险。
  • 创建并发布首个多语言越狱数据集 MultiJail。
  • 分析语言资源效应及基于翻译的安全攻击在多语言设定中的影响。
  • 提出并评估一个自生成的多语言安全数据增强框架(Self-Defence),在无需人工标注的情况下提升安全性。

提出的方法

  • 通过翻译英文提示来整理一个覆盖 30 种语言的多语言不安全提示数据集。
  • 使用人工和 GPT-4 评估者在各语言中的 ChatGPT 与 GPT-4 安全性评估。
  • 构建并分析跨 10 种语言、共 3150 个样本的 MultiJail。
  • 包括多语言自适应攻击在内的无意和有意越狱场景的模拟。
  • 开发 Self-Defence,利用 LLMs 生成多语言安全数据并翻译成多种语言用于微调。
  • 评估在安全性微调后的安全性与有用性之间的权衡。

实验结果

研究问题

  • RQ1在非英语语言提示 LLM 时不安全输出的普遍程度如何(无意场景)?
  • RQ2多语言提示如何与英文恶意指令交互以实现越狱(有意场景)?
  • RQ3一个自生成的多语言安全数据增强策略是否能够在无需人工标注的情况下提升安全性(Self-Defence)?
  • RQ4在多语言安全微调后的安全性与模型有用性之间存在哪些权衡?

主要发现

模型enzhitviHRLarkothMRLbnswjvLRLAvg
无意的 ChatGPT0.632.222.867.944.346.039.8418.1011.3228.257.948.5714.9210.19
无意的 GPT-40.953.492.544.763.603.493.815.084.1312.706.3511.4310.165.96
有意的 ChatGPT72.0681.2783.1781.2781.9082.5480.0081.9081.4883.1783.4971.4379.3780.92
有意的 GPT-428.2541.9044.4434.2940.2129.8434.9246.6737.1438.4143.4952.3844.7640.71
  • 不安全内容会随着语言资源减少而增加(例如孟加拉语:在无意场景下 ChatGPT 的不安全率为 28.25%)。
  • 无意多语言不安全率:ChatGPT 平均 10.19%,GPT-4 平均 5.96%。
  • 有意多语言攻击产生高不安全率:ChatGPT 80.92%,GPT-4 40.71%(平均)。
  • 多语言自适应攻击达到显著的不安全率:ChatGPT 44.76%,GPT-4 27.30%。
  • Self-Defence 将不安全率降低:无意从 10.19% 降至 3.95%;有意从 80.92% 降至 60.00% 对于 ChatGPT。
  • Self-Defence 引入安全性与可用性权衡,改善安全性但可能降低总体有用性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。