[論文レビュー] SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks
SCISAFEEVALは、科学的タスクにおけるLLMの安全性を評価する大規模・多分野のベンチマークで、化学・生物学・医学・物理学全域で31,840サンプルを特徴とし、セーフティガードレールを強化するためのジャイルブレイク試験も含む。
Large language models (LLMs) have a transformative impact on a variety of scientific tasks across disciplines including biology, chemistry, medicine, and physics. However, ensuring the safety alignment of these models in scientific research remains an underexplored area, with existing benchmarks primarily focusing on textual content and overlooking key scientific representations such as molecular, protein, and genomic languages. Moreover, the safety mechanisms of LLMs in scientific tasks are insufficiently studied. To address these limitations, we introduce SciSafeEval, a comprehensive benchmark designed to evaluate the safety alignment of LLMs across a range of scientific tasks. SciSafeEval spans multiple scientific languages-including textual, molecular, protein, and genomic-and covers a wide range of scientific domains. We evaluate LLMs in zero-shot, few-shot and chain-of-thought settings, and introduce a "jailbreak" enhancement feature that challenges LLMs equipped with safety guardrails, rigorously testing their defenses against malicious intention. Our benchmark surpasses existing safety datasets in both scale and scope, providing a robust platform for assessing the safety and performance of LLMs in scientific contexts. This work aims to facilitate the responsible development and deployment of LLMs, promoting alignment with safety and ethical standards in scientific research.
研究の動機と目的
- テキスト、分子、タンパク質、ゲノム科学言語全体にわたるLLMの安全性整合性を評価する。
- 有害なサンプルと無害なサンプルを含む、大規模で高品質な多分野ベンチマークを提供する。
- ジャイルブレイクプロンプトを組み込み、敵対的プロンプトに対する安全ガードレールの頑健性を評価する。
- ゼロショット、Few-shot、思考過程を伴う prompting を評価し、異なる指示レベル下での安全性を理解する。
提案手法
- 化学・生物学・医学・物理学に跨る、テキスト表現と科学的表現を含む多分野データセットを構築する。
- 信頼できる危険物データベースから有害物質を精選し、確立されたデータセットの領域特有の指示と組み合わせる。
- WildTeamingを用いたジャイルブレイクプロンプトを組み込み、敵対的プロンプトに対するガードレールの頑健性を検証する。
- ゼロショット、Few-shot、思考過程プロンプティングに加え、ジャイルブレイクテストでモデルを評価する。
- 無害性、有用性、拒否率を評価するために3人の審査員を使用して安全性整合性を測定する。
実験結果
リサーチクエスチョン
- RQ1複数の領域にまたがる科学的問いに回答する際、汎用LLMと領域特化LLMはどれくらい安全か?
- RQ2Few-shotまたは思考過程プロンプティングは科学タスクにおける安全性整合性を向上させるか?
- RQ3組み込みのガードレールを持つモデルは科学的文脈でジャイルブレイクの試みにどれくらい脆弱か?
- RQ4領域とプロンプト設定間で無害性、有用性、拒否率のトレードオフはどうなるか?
- RQ5大規模・多言語のベンチマークは従来データセットより安全性のギャップをより明らかにできるか?
主な発見
- SCISAFEEVALは化学・生物学・医学・物理学にまたがる31,840サンプルを含む。
- ゼロショットの性能は安全性整合性に関して一般的に低く、5ショットと思考過程プロンプティングで改善される。
- Claude-3.5が全体的な安全性能で最高を達成し、クローズドソースモデルがオープンソースモデルを上回ることが多い。
- ジャイルブレイクプロンプトは、小型モデルが大規模モデルより敵対的攻撃に対して脆弱であることを示す。
- ジャイルブレイク攻撃の成功率はモデルによって異なり、LLaMa-8BはLLaMa-70Bと比べて脆弱性が高い。
- 無害性と有用性の間にはトレードオフがあり、特定のプロンプト設定下で過度の安全性を示すモデルもある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。