[论文解读] The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
论文引入 WMDP 基准,用以衡量 LLM 的危险知识,并提出 Cut,一种对比消除方法,在降低危险知识的同时维持通用能力。
The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 3,668 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop RMU, a state-of-the-art unlearning method based on controlling model representations. RMU reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
研究动机与目标
- 建立一个公开的开放基准(WMDP),以衡量与生物安全、网络安全、化学安全相关的危险知识。
- 提供安全收集与筛选危险信息的方法学,避免释放敏感内容。
- 开发并评估一种去学习技术(Cut),在保持通用 AI 能力的同时移除危险知识。
- 证明去学习可以在不严重削弱非危险任务性能的情况下降低危险知识。
提出的方法
- 创建一个 4,157 题的多项选择基准(WMDP),覆盖生物安全、网络安全和化学,并在设计时严格排除敏感数据。
- 设计以威胁模型为驱动的题目生成,近似危险知识,同时不暴露可操作细节。
- 提出 Cut,一种两阶段损失微调方法,将危险知识激活引导至初级表示,同时保留良性知识以维持通用能力。
- 使用基于关键词的控制向量来引导遗忘过程,并在跨威胁分布间插入更新实现多领域去学习。
- 在 WMDP-Bio 与 WMDP-Cyber 上评估 Cut,,与基线对比并评估对非危险任务如 MMLU 与 MT-Bench 的泛化能力。
实验结果
研究问题
- RQ1公开发布的基准(WMDP)是否能够有效衡量跨生物安全、网络安全与化学领域的危险知识?
- RQ2一种事后去学习方法是否能够在保持通用模型能力的同时显著降低危险知识?
- RQ3去学习方法是否在威胁领域间具备泛化,并能抵抗通过探测或对抗性尝试实现的恢复?
- RQ4在将去学习作为 LLM 风险缓解工具部署时,实际考虑因素与权衡有哪些?
主要发现
| 模型 | WMDP Bio (↓) | WMDP Cyber (↓) | MMLU (↑) | MT-Bench (↑) |
|---|---|---|---|---|
| zephyr-7b | 65.5 | 42.9 | 58.5 | 7.33 |
| zephyr-7b + Cut (ours) | 29.3 | 24.9 | 57.0 | 7.20 |
| Yi-34b | 76.3 | 45.8 | 72.9 | 7.65 |
| Yi-34b + Cut (ours) | 30.9 | 29.2 | 69.0 | 7.11 |
- WMDP 由跨生物安全、网络安全和化学的 4,157 个问题组成,设计用于代理危险知识。
- Cut 显著降低 WMDP 的 Hazardous-Knowledge 绩效(例如在 WMDP 上的准确率大幅下降),同时在 MMLU 和 MT-Bench 上基本保持通用能力。
- Cut 对通过线性探测或对抗性攻击实现的恢复表现出鲁棒性。
- 实验表明,去学习危险知识可以泛化到超出 EXACT WMDP 分布的相关内容。
- 结果表明去学习是更广泛风险缓解策略的可行组成部分,应对双重用途科学知识时需谨慎处理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。