[論文レビュー] SafetyBench: Evaluating the Safety of Large Language Models
SafetyBenchは、LLMを評価するための、7つの安全カテゴリにわたる11,435問の多肢選択問題を含む、包括的で多言語対応のセーフティベンチマークを導入します。GPT-4の安全性パフォーマンスが最も高いことを示す一方、顕著なギャップが残っています。
With the rapid development of Large Language Models (LLMs), increasing attention has been paid to their safety concerns. Consequently, evaluating the safety of LLMs has become an essential task for facilitating the broad applications of LLMs. Nevertheless, the absence of comprehensive safety evaluation benchmarks poses a significant impediment to effectively assess and enhance the safety of LLMs. In this work, we present SafetyBench, a comprehensive benchmark for evaluating the safety of LLMs, which comprises 11,435 diverse multiple choice questions spanning across 7 distinct categories of safety concerns. Notably, SafetyBench also incorporates both Chinese and English data, facilitating the evaluation in both languages. Our extensive tests over 25 popular Chinese and English LLMs in both zero-shot and few-shot settings reveal a substantial performance advantage for GPT-4 over its counterparts, and there is still significant room for improving the safety of current LLMs. We also demonstrate that the measured safety understanding abilities in SafetyBench are correlated with safety generation abilities. Data and evaluation guidelines are available at \url{https://github.com/thu-coai/SafetyBench}{https://github.com/thu-coai/SafetyBench}. Submission entrance and leaderboard are available at \url{https://llmbench.ai/safety}{https://llmbench.ai/safety}.
研究の動機と目的
- 多様な安全上の懸念に対して、包括的で拡張性のあるLLM用安全評価ベンチマークの必要性を喚起する。
- 自動化・費用対効果の高い安全評価を実現するための、中国語と英語の多言語対応MCQベースの評価を提案する。
- データセット、試験、拡張など多様なソースからデータを収集し、信頼性のための厳格な品質管理を適用する。
- ゼロショットおよびfew-shot設定で25のLLMを評価し、安全性のパフォーマンスをベンチマークしギャップを特定する。
- LLMの迅速な安全性向上を促進するためのデータ、ガイドライン、リーダーボードへのアクセスを提供する。
提案手法
- さまざまなソースから7つの安全カテゴリにまたがる11,435問のMCQを収集する。
- クロスランゲージの一貫性を確保するため、Sensitive Topics カテゴリを除外する。
- 商用翻訳APIを用いて中国語と英語のデータを翻訳し、均一な二言語評価を実現する。
- 既存のデータセット、安全性関連の試験、LLM支援による拡張を用い、人的検証を経て信頼性を確保する。
- 回答の抽出ルールと固定温度サンプリングを用いたゼロショットおよびfive-shot設定でモデルを評価する。
- 公開リーダーボードと評価プロトコルを提供する(この版にはCoTベースの評価は含まれません)。
実験結果
リサーチクエスチョン
- RQ1中国語と英語データを横断して、LLMsを評価する主要な安全性の次元は何か?
- RQ2ゼロショットおよびfew-shot条件で、一般的なLLMsは安全性パフォーマンスでどう比較されるか?
- RQ3現在のLLMsにとって最も難しい安全カテゴリはどれで、どこにギャップが残っているか?
- RQ4二言語データは安全評価と跨言語の一般化にどう影響するか?
- RQ5スケーラブルな安全ベンチマークを構築するために、どのデータソースと品質管理が効果的か?
主な発見
- GPT-4は評価対象のLLMの中で最も高い安全性精度を達成し、ゼロショット結果で次点モデルを約10ポイント上回った。
- ゼロショットテストではGPT-4が大きくリードする一方、Physical HealthおよびEthics/Moralityカテゴリに著しいギャップがある。
- 多くのLLMが平均80%未満、UnfairnessとBiasなどの一部カテゴリで70%未満の得点となっており、改善の余地を示している。
- Five-shotの結果はモデル間で得られる利得が様々で、あるモデルは顕著に改善する一方、他は整合性に関するトレードオフを示す。
- 中国系のLLMは中国語データでより良い性能を示す傾向があり、OpenAIのGPTシリーズはよりバランスの取れた二言語性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。