[논문 리뷰] SciSafeEval: A Comprehensive Benchmark for Safety Alignment of Large Language Models in Scientific Tasks
SCISAFEEVAL은 과학 분야 과제에서 LLM을 위한 대규모 다도메인 안전 벤치마크로, 화학, 생물학, 의학, 물리학 전반의 31,840개의 샘플과 안전 가드레일을 긴장시키는 Jailbreak 테스트를 특징으로 한다.
Large language models (LLMs) have a transformative impact on a variety of scientific tasks across disciplines including biology, chemistry, medicine, and physics. However, ensuring the safety alignment of these models in scientific research remains an underexplored area, with existing benchmarks primarily focusing on textual content and overlooking key scientific representations such as molecular, protein, and genomic languages. Moreover, the safety mechanisms of LLMs in scientific tasks are insufficiently studied. To address these limitations, we introduce SciSafeEval, a comprehensive benchmark designed to evaluate the safety alignment of LLMs across a range of scientific tasks. SciSafeEval spans multiple scientific languages-including textual, molecular, protein, and genomic-and covers a wide range of scientific domains. We evaluate LLMs in zero-shot, few-shot and chain-of-thought settings, and introduce a "jailbreak" enhancement feature that challenges LLMs equipped with safety guardrails, rigorously testing their defenses against malicious intention. Our benchmark surpasses existing safety datasets in both scale and scope, providing a robust platform for assessing the safety and performance of LLMs in scientific contexts. This work aims to facilitate the responsible development and deployment of LLMs, promoting alignment with safety and ethical standards in scientific research.
연구 동기 및 목표
- 텍스트, 분자, 단백질, 게놈 과학 언어 전반에서 LLM의 안전 정렬을 평가한다.
- 유해한 샘플과 무해한 샘플을 포함하는 크고 고품질의 다학제 벤치마크를 제공한다.
- adversarial prompts에 대한 안전 가드레일의 강건성을 평가하기 위해 jailbreak 프롬프트를 포함한다.
- 제로샷, 소수샷, 체인-오브-생각(chain-of-thought) 프롬프트를 평가하여 다양한 지침 수준에서의 안전성을 이해한다.
제안 방법
- 화학, 생물학, 의학, 물리학에 걸친 텍스트 및 과학적 표현을 포함하는 다학제 데이터세트를 구성한다.
- 권위 있는 위험 데이터베이스에서 위험 물질을 선별하고 확립된 데이터세트의 도메인별 지침과 결합한다.
- WildTeaming을 사용한 jailbreak 프롬프트를 도입하여 adversarial prompts에 대한 가드레일의 강건성을 테스트한다.
- 제로샷, 소수샷, 그리고 chain-of-thought 프롬프트를 적용하고 jailbreak 테스트를 추가로 평가한다.
- 세 심판을 사용하여 무해성, 도움이 됨, 거부 비율을 평가하여 안전 정렬을 측정한다.
실험 결과
연구 질문
- RQ1다양한 도메인에 걸친 과학적 질의에 답할 때 범용 LLM 및 도메인 특화 LLM은 얼마나 안전한가?
- RQ2소수샷이나 chain-of-thought 프롬프트가 과학적 작업에서 안전 정렬을 개선하는가?
- RQ3내장된 가드레일이 있는 모델은 과학 맥락에서 jailbreaking 시도에 얼마나 취약한가?
- RQ4도메인 및 프롬프트 설정 간의 무해성, 도움이 됨, 거부 비율 간의 상충은 무엇인가?
- RQ5대규모 다국어 벤치마크가 이전 데이터셋보다 안전성 격차를 더 잘 드러낼 수 있는가?
주요 결과
- SCISAFEEVAL은 화학, 생물학, 의학, 물리학 전반의 31,840개의 샘플을 포함한다.
- 제로샷 성능은 일반적으로 안전 정렬에 대해 저조하며, 다섯 샷 및 chain-of-thought 프롬프트에서 개선된 결과를 보인다.
- Claude-3.5가 전체 안전 성능에서 가장 높고, 비공개 모델이 종종 공개 소스보다 우수한 경우가 많다.
- Jailbreak 프롬프트는 더 작은 모델이 adversarial 공격에 더 취약하다는 것을 입증한다.
- Jailbreak 공격 성공률은 모델에 따라 다르며, LLaMa-8B가 LLaMa-70B에 비해 높은 취약성을 보인다.
- 무해성과 도움성 사이에 trade-off가 존재하며 특정 프롬프트 체제에서 일부 모델은 과도한 안전성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.