[논문 리뷰] SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models
SalamahBench는 MLCommons와 일치하는 12개 위험 범주에 걸친 8,170개의 프롬프트로 구성된 통합된 아랍어 안전 벤치마크를 도입하고, 카테고리 인식 안전성 및 가드 효능을 연구하기 위해 다양한 안전 구성으로 다섯 개의 ALMs를 평가한다.
Safety alignment in Language Models (LMs) is fundamental for trustworthy AI. However, while different stakeholders are trying to leverage Arabic Language Models (ALMs), systematic safety evaluation of ALMs remains largely underexplored, limiting their mainstream uptake. Existing safety benchmarks and safeguard models are predominantly English-centric, limiting their applicability to Arabic Natural Language Processing (NLP) systems and obscuring fine-grained, category-level safety vulnerabilities. This paper introduces SalamaBench, a unified benchmark for evaluating the safety of ALMs, comprising $8,170$ prompts across $12$ different categories aligned with the MLCommons Safety Hazard Taxonomy. Constructed by harmonizing heterogeneous datasets through a rigorous pipeline involving AI filtering and multi-stage human verification, SalamaBench enables standardized, category-aware safety evaluation. Using this benchmark, we evaluate five state-of-the-art ALMs, including Fanar 1 and 2, ALLaM 2, Falcon H1R, and Jais 2, under multiple safeguard configurations, including individual guard models, majority-vote aggregation, and validation against human-annotated gold labels. Our results reveal substantial variation in safety alignment: while Fanar 2 achieves the lowest aggregate attack success rates, its robustness is uneven across specific harm domains. In contrast, Jais 2 consistently exhibits elevated vulnerability, indicating weaker intrinsic safety alignment. We further demonstrate that native ALMs perform substantially worse than dedicated safeguard models when acting as safety judges. Overall, our findings highlight the necessity of category-aware evaluation and specialized safeguard mechanisms for robust harm mitigation in ALMs.
연구 동기 및 목표
- 아랍어 언어 모델(ALMs)에 대한 언어 특화 안전 평가의 필요성을 제고한다.
- MLCommons 분류 체계에 매핑된 단일하고 카테고리 인식적인 아랍어 안전 벤치마크인 SalamahBench를 만든다.
- 다수의 ALMs와 안전 구성들을 평가하여 안전 정렬성(safety alignment)과 가드 효능을 특징지운다.
제안 방법
- 이질적인 아랍어 안전 데이터세트를 모아 SalamahBench를 구성하고 프롬프트를 MLCommons의 열두 가지 위험 범주에 매핑한다.
- 데이터 품질 및 아랍어 언어학과 문화에의 정합성을 확보하기 위해 AI 필터링과 다단계 인간 검증을 적용한다.
- 다섯 개의 ALMs (Fanar 1, Fanar 2, ALLaM 2, Falcon H1R, Jais 2)를 평가하고 다수의 안전 구성(개별 가드, 다수결 집계, 골 라벨 검증) 하에서 검사한다.
- 번역 왜곡을 피하기 위해 번역이 아닌 모국어 아랍어 안전 판단을 사용한다.
실험 결과
연구 질문
- RQ1ALMs가 MLCommons 위험 범주 전반에서 카테고리 인식 안전 평가에서 어떻게 성능을 보이나?
- RQ2다수결을 포함한 원어 안전 구성들이 공격 성공률을 줄이고 인간 판단과의 일치를 얼마나 효과적으로 이끄는가?
- RQ3자체 가드로서 작동하는 모국어 ALMs와 전용 안전 모델로서의 차이는 무엇인가?
- RQ4어떤 위험 범주가 모델들 간 가장 강력하거나 약한 안전 정렬성을 나타내는가?
주요 결과
- Fanar 2는 평가 대상 ALMs 중 총괄 공격 성공률이 가장 낮은 편이나 해 위험 도메인 간 강건성은 고르게 분포되지 않는다.
- Jais 2는 해 위험 범주 전체에서 지속적으로 더 높은 취약성을 보이며 내재적 안전 정렬성이 약하다는 것을 시사한다.
- 자체 가드로서의 모국어 ALMs는 안전 판단 작업에서 전용 안전 모델에 비해 상당히 낮은 성능을 보인다.
- 다수결 집계의 다중 가드 모델은 인간 골 라벨과 가장 높은 일치를 보이고 카테고리 전반에서 가장 낮은 공격 성공률을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.