[論文レビュー] The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning
本論文は、LLM における危険知識を測定するための WMDP ベンチマークを導入し、一般的能力を維持しつつ危険知識を低減する対照的忘却法 Cut を提案する。
The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 3,668 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop RMU, a state-of-the-art unlearning method based on controlling model representations. RMU reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai
研究の動機と目的
- 生物安全性、サイバーセキュリティ、化学セキュリティに関連する危険知識を測定する公開ベンチマーク(WMDP)を確立する。
- 機密性の高い情報を公開しないように、危険情報を安全に収集・フィルタリングする方法論を提供する。
- 危険知識を除去しつつ一般的なAI能力を維持する忘却技術(Cut)を開発・評価する。
- 忘却が危険知識を低減し、非危険な性能の重大な劣化を招かずに済むことを示す。
提案手法
- 生物安全、サイバーセキュリティ、化学をカバーする4,157 問題の多肢選択ベンチマーク(WMDP)を、機微なデータを慎重に除外して作成する。
- 脅威モデル駆動の問題生成を設計し、実用可能な手掛かりを開示せずに危険知識を近似する。
- Cut という二部構成の損失微調整法を提案し、危険知識の活性化を初心者表現へ向けつつ、一般的な能力を保持する善性知識を保存する。
- 忘却過程を誘導するキーワードベースの制御ベクトルを用い、マルチドメイン忘却のために脅威分布間の更新を相互に織り混ぜる。
- Cut を WMDP-Bio および WMDP-Cyber で評価し、ベースラインと比較し、MMLU や MT-Bench のような非危険タスクへの一般化を評価する。
実験結果
リサーチクエスチョン
- RQ1公開されたベンチマーク(WMDP)は生物安全、サイバーセキュリティ、化学の各領域にまたがる危険知識を効果的に測定できるか。
- RQ2事後的な忘却手法は一般的なモデル能力を維持しつつ、危険知識を意味的に減少させることができるか。
- RQ3忘却手法は脅威ドメイン間で一般化し、プロービングや対‑攻撃による回復に対して耐性を示すか。
- RQ4忘却をLLMのリスク緩和ツールとして展開する際の実務的な考慮点とトレードオフは何か。
主な発見
| Model | WMDP Bio (↓) | WMDP Cyber (↓) | MMLU (↑) | MT-Bench (↑) |
|---|---|---|---|---|
| zephyr-7b | 65.5 | 42.9 | 58.5 | 7.33 |
| zephyr-7b + Cut (ours) | 29.3 | 24.9 | 57.0 | 7.20 |
| Yi-34b | 76.3 | 45.8 | 72.9 | 7.65 |
| Yi-34b + Cut (ours) | 30.9 | 29.2 | 69.0 | 7.11 |
- WMDP は生物安全性、サイバーセキュリティ、化学の3領域にまたがる4,157 問題からなり、危険知識を代理する設計となっている。
- Cut は WMDP における危険知識のパフォーマンスを大幅に低下させつつ(例:WMDP の精度の大幅な低下)、MMLU および MT-Bench での一般能力を概ね保持する。
- Cut は線形プロービングや対アドバーサリアル攻撃による回復に対してロバスト性を示す。
- 実験は、忘却によって危険知識を関連コンテンツへ一般化できることを示しており、WMDP 配分の厳密な一致を超える。
- 結果は、危険知識の忘却が広範なリスク緩和戦略の一要素として実現可能であることを示し、二重用途の科学知識の扱いには慎重な対応が必要である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。