[논문 리뷰] SafetyBench: Evaluating the Safety of Large Language Models
SafetyBench는 LLM을 평가하기 위해 7개의 안전 카테고리에 걸친 11,435개의 객관식 질문으로 구성된 포괄적이고 다중 언어 안전 벤치마크를 도입하며, GPT-4의 선도적인 안전 성능을 시사하지만 남아 있는 중요한 격차를 드러낸다.
With the rapid development of Large Language Models (LLMs), increasing attention has been paid to their safety concerns. Consequently, evaluating the safety of LLMs has become an essential task for facilitating the broad applications of LLMs. Nevertheless, the absence of comprehensive safety evaluation benchmarks poses a significant impediment to effectively assess and enhance the safety of LLMs. In this work, we present SafetyBench, a comprehensive benchmark for evaluating the safety of LLMs, which comprises 11,435 diverse multiple choice questions spanning across 7 distinct categories of safety concerns. Notably, SafetyBench also incorporates both Chinese and English data, facilitating the evaluation in both languages. Our extensive tests over 25 popular Chinese and English LLMs in both zero-shot and few-shot settings reveal a substantial performance advantage for GPT-4 over its counterparts, and there is still significant room for improving the safety of current LLMs. We also demonstrate that the measured safety understanding abilities in SafetyBench are correlated with safety generation abilities. Data and evaluation guidelines are available at \url{https://github.com/thu-coai/SafetyBench}{https://github.com/thu-coai/SafetyBench}. Submission entrance and leaderboard are available at \url{https://llmbench.ai/safety}{https://llmbench.ai/safety}.
연구 동기 및 목표
- 다양한 안전 우려에 걸친 LLM용 포괄적이고 확장 가능한 안전 평가 벤치마크의 필요성을 촉구한다.
- 자동화되고 비용 효과적인 안전 평가를 가능하게 하는 다중 언어(중국어와 영어) MCQ 기반 평가를 제안한다.
- 데이터를 다양한 출처(데이터셋, 시험, 보강)에서 모으고 신뢰성을 위한 엄격한 품질 관리를 적용한다.
- 제로샷 및 파샷 설정에서 25개의 LLM을 평가하여 안전 성능을 벤치마크하고 격차를 식별한다.
- LLM의 안전 개선을 신속히 촉진하기 위해 데이터, 가이드라인, 리더보드 접근을 제공한다.
제안 방법
- 다양한 출처에서 7개 안전 카테고리에 걸친 11,435개의 MCQ를 수집한다.
- 언어 간 일관성을 보장하기 위해 Sensitive Topics 카테고리를 제외한다.
- 균일한 이중언어 평가를 위해 중국어와 영어 간 데이터를 번역하는 상용 번역 API를 사용한다.
- 기존 데이터셋, 안전 관련 시험, 인간 검증이 포함된 LLM 보조 보강 데이터를 활용한다.
- 고정된 온도 샘플링과 답변 추출 규칙을 적용하여 제로샷과 다섯 샷 설정에서 모델을 평가한다.
- 공개 리더보드와 평가 프로토콜을 제공한다(이번 버전에는 CoT 기반 평가가 포함되지 않는다).
실험 결과
연구 질문
- RQ1중국어 및 영어 데이터 전반에서 LLM을 평가할 주요 안전 차원은 무엇인가?
- RQ2제로샷 및 파샷 조건에서 인기 있는 LLM의 안전 성능은 어떻게 비교되는가?
- RQ3현재 LLM에게 가장 도전적인 안전 카테고리는 무엇이며 어디에 격차가 남아 있는가?
- RQ4이중언어 데이터가 안전 평가와 언어 간 일반화에 어떤 영향을 미치는가?
- RQ5확장 가능한 안전 벤치마크 구축에 효과적인 데이터 소스와 품질 관리 방법은 무엇인가?
주요 결과
- GPT-4는 평가된 LLM 전반에서 최고 안전 정확도를 달성하여 제로샷 결과에서 다음 최적 모델보다 약 10-포인트 차이로 앞선다.
- 제로샷 테스트에서 GPT-4가 크게 앞서며 Physical Health 및 Ethics/Morality 카테고리에서 두드러진 차이가 있다.
- 많은 LLM이 평균 정확도 80% 미만이고 Unfairness와 Bias와 같은 일부 카테고리에서 70% 미만을 기록하여 개선 여지가 있음을 시사한다.
- 다섯 샷 결과는 모델 간 가산이 다양하게 나타나며 일부 모델은 현저히 향상되고 다른 모델은 정렬 관련 트레이드오프를 보인다.
- 중국산 LLM은 중국어 데이터에서 더 잘 수행하는 경향이 있으며 OpenAI GPT 시리즈는 더 균형 잡힌 이중언어 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.