Skip to main content
QUICK REVIEW

[논문 리뷰] Safety Assessment of Chinese Large Language Models

Hao Sun, Zhexin Zhang|arXiv (Cornell University)|2023. 04. 20.
Adversarial Robustness in Machine Learning인용 수 16
한 줄 요약

본 논문은 LLM 평가자를 활용해 안전성을 점수화하고 커뮤니티 사용을 위한 SafetyPrompts를 공개하는 등, 8개의 안전 시나리오와 6개의 지시 공격 유형에 걸쳐 15개의 모델을 평가하는 중국어 LLM 안전 벤치마크를 제시한다.

ABSTRACT

With the rapid popularity of large language models such as ChatGPT and GPT-4, a growing amount of attention is paid to their safety concerns. These models may generate insulting and discriminatory content, reflect incorrect social values, and may be used for malicious purposes such as fraud and dissemination of misleading information. Evaluating and enhancing their safety is particularly essential for the wide application of large language models (LLMs). To further promote the safe deployment of LLMs, we develop a Chinese LLM safety assessment benchmark. Our benchmark explores the comprehensive safety performance of LLMs from two perspectives: 8 kinds of typical safety scenarios and 6 types of more challenging instruction attacks. Our benchmark is based on a straightforward process in which it provides the test prompts and evaluates the safety of the generated responses from the evaluated model. In evaluation, we utilize the LLM's strong evaluation ability and develop it as a safety evaluator by prompting. On top of this benchmark, we conduct safety assessments and analyze 15 LLMs including the OpenAI GPT series and other well-known Chinese LLMs, where we observe some interesting findings. For example, we find that instruction attacks are more likely to expose safety issues of all LLMs. Moreover, to promote the development and deployment of safe, responsible, and ethical AI, we publicly release SafetyPrompts including 100k augmented prompts and responses by LLMs.

연구 동기 및 목표

  • 포괄적인 안전 분류체계와 벤치마크를 개발하여 중국어 LLM의 안전한 배치를 촉진한다.
  • 자동화된 LLM 평가를 사용하여 다수의 중국어 모델과 OpenAI 모델의 안전성 성능을 평가한다.
  • 안전성 테스트 및 모델 개선을 돕기 위한 공공 안전 프롬프트 자원을 제공한다.

제안 방법

  • 8개의 전형적인 안전 시나리오와 6개의 지시-공격 유형의 분류체계를 정의한다.
  • 수작으로 작성된 안전 프롬프트를 만들고 LLM 평가자를 사용해 모델 응답의 안전성을 판단한다.
  • 시나리오별 안전 점수와 매크로 평균을 계산해 전반적 안전성 S를 도출한다.
  • 벤치마크 웹사이트에서 GPT 시리즈와 중국어 LLM을 포함한 15개의 모델을 수집해 평가한다.
  • 100k SafetyPrompts로 프롬프트를 보강하고 공개한다.
  • 안전성 평가를 위한 리더보드와 오픈 소스 리소스를 제공한다.

실험 결과

연구 질문

  • RQ1What is the safety performance of current Chinese LLMs across standard safety scenarios?
  • RQ2How do instruction attacks affect the safety of LLMs compared to typical safety scenarios?
  • RQ3Can an automatic LLM-based evaluator reliably judge the safety of model outputs?
  • RQ4What is the impact of safety prompt augmentation on model safety?
  • RQ5How do different models compare on a unified safety leaderboard?

주요 결과

  • OpenAI’s ChatGPT leads in safety scores across most scenarios due to rejection of unsafe inputs and safety data.
  • Instruction-attacks consistently yield lower safety scores than typical scenarios across models.
  • Models trained on instruction data generally outperform open-domain conversational models in safety.
  • In some scenarios, ChatGPT matches Chinese LLMs like ChatGLM and MiniChat, but instruction-attack gaps remain large.
  • Instruction-attack safety scores lag behind typical-scenario scores, driving overall safety gaps between ChatGPT and other models.
  • SafetyPrompts library consists of 100k augmented prompts and responses released publicly.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.