Skip to main content
QUICK REVIEW

[论文解读] Safety Assessment of Chinese Large Language Models

Hao Sun, Zhexin Zhang|arXiv (Cornell University)|Apr 20, 2023
Adversarial Robustness in Machine Learning被引用 16
一句话总结

论文提出一个中文大语言模型(LLM)安全基准,在8个安全场景和6种指令攻击类型上评估15个模型,使用LLM评估器对安全性打分,并公开SafetyPrompts供社区使用。

ABSTRACT

With the rapid popularity of large language models such as ChatGPT and GPT-4, a growing amount of attention is paid to their safety concerns. These models may generate insulting and discriminatory content, reflect incorrect social values, and may be used for malicious purposes such as fraud and dissemination of misleading information. Evaluating and enhancing their safety is particularly essential for the wide application of large language models (LLMs). To further promote the safe deployment of LLMs, we develop a Chinese LLM safety assessment benchmark. Our benchmark explores the comprehensive safety performance of LLMs from two perspectives: 8 kinds of typical safety scenarios and 6 types of more challenging instruction attacks. Our benchmark is based on a straightforward process in which it provides the test prompts and evaluates the safety of the generated responses from the evaluated model. In evaluation, we utilize the LLM's strong evaluation ability and develop it as a safety evaluator by prompting. On top of this benchmark, we conduct safety assessments and analyze 15 LLMs including the OpenAI GPT series and other well-known Chinese LLMs, where we observe some interesting findings. For example, we find that instruction attacks are more likely to expose safety issues of all LLMs. Moreover, to promote the development and deployment of safe, responsible, and ethical AI, we publicly release SafetyPrompts including 100k augmented prompts and responses by LLMs.

研究动机与目标

  • 通过制定全面的安全分类体系和基准,促进中文LLM的安全部署。
  • 利用自动化LLM评估评估多种中文和OpenAI模型的安全性能。
  • 提供一个公开的安全提示资源,帮助安全测试和模型改进。

提出的方法

  • 定义8个典型安全场景和6种指令攻击类型的分类体系。
  • 创建人工编写的安全提示,并使用LLM评估器对模型回答的安全性进行判断。
  • 计算逐场景的安全分数和宏平均值以推导总体安全S。
  • 在基准网站上收集并评估包括GPT系列和中文LLMs在内的15个模型。
  • 用100k个SafetyPrompts扩充提示并公开发布。
  • 提供排行榜和用于安全评估的开源资源。

实验结果

研究问题

  • RQ1当前中文LLMs在标准安全场景下的安全性能如何?
  • RQ2与典型安全场景相比,指令攻击如何影响LLMs的安全性?
  • RQ3基于自动化LLM的评估器是否能够可靠判断模型输出的安全性?
  • RQ4安全提示扩增对模型安全性的影响是什么?
  • RQ5在统一的安全排行榜上,不同模型的表现如何比较?

主要发现

  • OpenAI 的 ChatGPT 在大多数场景中在安全分数上领先,原因是拒绝不安全输入和使用安全数据。
  • 指令攻击在各模型中普遍导致比典型场景更低的安全分数。
  • 在指令数据上训练的模型在安全性方面通常优于开放领域对话模型。
  • 在某些场景下,ChatGPT 可以达到像 ChatGLM、MiniChat 这样的中文LLM水平,但指令攻击的差距仍然很大。
  • 指令攻击的安全分数落后于典型场景分数,拉大了ChatGPT与其他模型之间的总体安全差距。
  • SafetyPrompts 库由10万条扩充的提示和响应组成,公开发布。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。