[论文解读] SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks
SCISAFEEVAL 是一个面向科学任务的、覆盖多领域的大规模安全基准测试,涵盖化学、生物、医学和物理领域的 31,840 个样本,并含有 jailbreak 测试以测试安全防护措施的鲁棒性。
Large language models (LLMs) have a transformative impact on a variety of scientific tasks across disciplines including biology, chemistry, medicine, and physics. However, ensuring the safety alignment of these models in scientific research remains an underexplored area, with existing benchmarks primarily focusing on textual content and overlooking key scientific representations such as molecular, protein, and genomic languages. Moreover, the safety mechanisms of LLMs in scientific tasks are insufficiently studied. To address these limitations, we introduce SciSafeEval, a comprehensive benchmark designed to evaluate the safety alignment of LLMs across a range of scientific tasks. SciSafeEval spans multiple scientific languages-including textual, molecular, protein, and genomic-and covers a wide range of scientific domains. We evaluate LLMs in zero-shot, few-shot and chain-of-thought settings, and introduce a "jailbreak" enhancement feature that challenges LLMs equipped with safety guardrails, rigorously testing their defenses against malicious intention. Our benchmark surpasses existing safety datasets in both scale and scope, providing a robust platform for assessing the safety and performance of LLMs in scientific contexts. This work aims to facilitate the responsible development and deployment of LLMs, promoting alignment with safety and ethical standards in scientific research.
研究动机与目标
- 评估 LLMs 在文本、分子、蛋白质和基因组科学语言上的安全对齐。
- 提供一个大型、高质量、跨学科的基准测试,包含有害与无害样本。
- 纳入 jailbreak 提示以评估安全防护措施对抗对抗性提示的鲁棒性。
- 评估零-shot、少量-shot 和 chain-of-thought 提示,以理解在不同引导水平下的安全性。
提出的方法
- 构建覆盖化学、生物、医学和物理学的跨学科数据集,包含文本和科学表示。
- 从权威危害数据库中整理有害物质,并与现有数据集中的领域特定指令相结合。
- 使用 WildTeaming 纳入 jailbreak 提示,以测试防护措施对抗对抗性提示的鲁棒性。
- 在零-shot、少-shot 与 chain-of-thought 提示下评估模型,并进行 jailbreak 测试。
- 使用三位评审评估无害性、帮助性和拒绝率,以衡量安全对齐。
实验结果
研究问题
- RQ1在跨多个领域回答科学问题时,通用型和领域专用的 LLMs 有多安全?
- RQ2少-shot 或 chain-of-thought 提示是否提高科学任务中的安全对齐?
- RQ3具有内置防护的模型在科学语境中的 jailbreak 尝试下有多脆弱?
- RQ4跨领域和不同提示设置下,无害性、帮助性与拒绝率之间的权衡是什么?
- RQ5一个大规模、跨语言的基准能否比以往数据集更好地揭示安全差距?
主要发现
- SCISAFEEVAL 包含覆盖化学、生物、医学和物理的 31,840 个样本。
- 零-shot 的安全对齐表现通常较差,在五-shot 和 chain-of-thought 提示下结果有所改善。
- Claude-3.5 实现了最高的整体安全性能,闭源模型通常优于开源模型。
- Jailbreak 提示揭示较小的模型比大模型更易受到对抗性攻击。
- Jailbreak 攻击成功率因模型而异,LLaMa-8B 相对于 LLaMa-70B 展现出更高的易受攻击性。
- 在无害性与帮助性之间存在权衡,在某些提示机制下,某些模型显示出过度安全。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。