Skip to main content
QUICK REVIEW

[論文レビュー] The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs

Songyang Liu, Chaozhuo Li|ArXiv.org|Jun 6, 2025
Ethics in Business and Education被引用数 4
ひとこと要約

この論文は、巨大言語モデル(LLMs)の安全性評価に関する包括的で体系的な調査を提供し、なぜ・なにを・どこで・どう評価すべきかを概説し、課題と今後の方向性を特定している。

ABSTRACT

With the rapid advancement of artificial intelligence, Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), including content generation, human-computer interaction, machine translation, and code generation. However, their widespread deployment has also raised significant safety concerns. In particular, LLM-generated content can exhibit unsafe behaviors such as toxicity, bias, or misinformation, especially in adversarial contexts, which has attracted increasing attention from both academia and industry. Although numerous studies have attempted to evaluate these risks, a comprehensive and systematic survey on safety evaluation of LLMs is still lacking. This work aims to fill this gap by presenting a structured overview of recent advances in safety evaluation of LLMs. Specifically, we propose a four-dimensional taxonomy: (i) Why to evaluate, which explores the background of safety evaluation of LLMs, how they differ from general LLMs evaluation, and the significance of such evaluation; (ii) What to evaluate, which examines and categorizes existing safety evaluation tasks based on key capabilities, including dimensions such as toxicity, robustness, ethics, bias and fairness, truthfulness, and related aspects; (iii) Where to evaluate, which summarizes the evaluation metrics, datasets and benchmarks currently used in safety evaluations; (iv) How to evaluate, which reviews existing mainstream evaluation methods based on the roles of the evaluators and some evaluation frameworks that integrate the entire evaluation pipeline. Finally, we identify the challenges in safety evaluation of LLMs and propose promising research directions to promote further advancement in this field. We emphasize the necessity of prioritizing safety evaluation to ensure the reliable and responsible deployment of LLMs in real-world applications.

研究の動機と目的

  • LLMsの安全性評価の背景と重要性を説明し、一般的なLLM評価とどのように異なるかを説明する。
  • 主な安全性評価タスクと次元(毒性、堅牢性、倫理、偏見/公正性、真実性など)を分類・整理する。
  • 安全性評価で一般的に用いられる評価指標、データセット、ベンチマーク、ツールキットを要約する。
  • 評価方法論をレビューし、評価者の役割(自動化 vs 人間)で分類する。
  • 現在の課題を特定し、LLMの安全性評価と標準化を進める方向性を提案する。

提案手法

  • Why to evaluate、What to evaluate、Where to evaluate、How to evaluate safety of LLMsの四次元フレーミングを提案する。
  • 毒性、堅牢性、倫理、偏見/公正性、真実性などの次元を横断する安全性評価タスクの詳細な分類学を提供する。
  • 安全性評価で用いられる既存の評価指標、データセット、ベンチマーク、ツールキットを収集・分類する。
  • 評価者のタイプ(自動システム vs 人間の評価者)で評価方法論をレビュー・分類する。
  • 標準化を進め、安全性評価を発展させるための課題を議論し、将来の研究方向性を概説する。

実験結果

リサーチクエスチョン

  • RQ1LLMsの安全性評価を一般的なモデル評価と区別する背景と主な動機は何か。
  • RQ2LLMsを評価するために用いられる主要な安全性評価タスクと次元は何か。
  • RQ3安全性評価で一般的に用いられる指標、データセット、ベンチマークは何であり、どのようなツールが存在するか。
  • RQ4安全性評価はどのように実施されるか(評価ツールキットと方法)し、誰が実施するのか(人間 vs 自動評価)?
  • RQ5LLMsの将来の安全性評価における主な課題と有望な方向性は何か。

主な発見

  • LLMの安全性評価における最近の進展を包括的かつ体系的にレビューしている。
  • 複数の次元にわたる安全性評価タスクの明確な分類フレームワークを確立している。
  • 研究者向けに評価指標、データセット/ベンチマーク、ツールキット、手法を統合して提供している。
  • 標準化と安全性評価実践の広範な導入の必要性を強調している。
  • 課題を論じ、LLMsの安全で責任ある開発と展開を促進する方向性を提案している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。