[論文レビュー] Introducing v0.5 of the AI Safety Benchmark from MLCommons
本論文は、英語言語対応のチャット調整LMのための MLCommons の AI Safety Benchmark v0.5 を紹介し、危険性の分類、テスト設計、評価、そしてオープンなベンチマークツールの検討を詳述するとともに、v1.0 への計画を示しています。
This paper introduces v0.5 of the AI Safety Benchmark, which has been created by the MLCommons AI Safety Working Group. The AI Safety Benchmark has been designed to assess the safety risks of AI systems that use chat-tuned language models. We introduce a principled approach to specifying and constructing the benchmark, which for v0.5 covers only a single use case (an adult chatting to a general-purpose assistant in English), and a limited set of personas (i.e., typical users, malicious users, and vulnerable users). We created a new taxonomy of 13 hazard categories, of which 7 have tests in the v0.5 benchmark. We plan to release version 1.0 of the AI Safety Benchmark by the end of 2024. The v1.0 benchmark will provide meaningful insights into the safety of AI systems. However, the v0.5 benchmark should not be used to assess the safety of AI systems. We have sought to fully document the limitations, flaws, and challenges of v0.5. This release of v0.5 of the AI Safety Benchmark includes (1) a principled approach to specifying and constructing the benchmark, which comprises use cases, types of systems under test (SUTs), language and context, personas, tests, and test items; (2) a taxonomy of 13 hazard categories with definitions and subcategories; (3) tests for seven of the hazard categories, each comprising a unique set of test items, i.e., prompts. There are 43,090 test items in total, which we created with templates; (4) a grading system for AI systems against the benchmark; (5) an openly available platform, and downloadable tool, called ModelBench that can be used to evaluate the safety of AI systems on the benchmark; (6) an example evaluation report which benchmarks the performance of over a dozen openly available chat-tuned language models; (7) a test specification for the benchmark.
研究の動機と目的
- AI 安全性評価を標準化する必要性を動機づけ、産業界と研究界の安全性向上を促進する。
- チャット調整言語モデルの安全性ベンチマークを仕様化・構築するための原則的な枠組みを提示する。
- ペルソナ、ユースケース、および 13 件の危害分類を定義し、安全性テストを導く。
- オープンで拡張可能なプラットフォーム(ModelBench)と、評価対象システムを評価する透明な評価手法を提供する。
提案手法
- ユースケースを定義(一般的な英語話者向けの成人間の会話から一般的なアシスタントまで)と、3 つのペルソナ(典型的な成人、悪意のある意図、自己傷害のリスクがある人)を設定する。
- v0.5 の対象範囲の7つを含む13カテゴリの危険性分類を開発し、詳細な定義とサブカテゴリーを整備する。
- テンプレートから作成されたテスト項目(プロンプト)合計 43,090 件を含む、危険カテゴリごとに 1 つずつの7つのテストセットを作成する。
- ベンチマークに対してテスト対象システムを評価するための、オープンで説明可能な評価系を提案する。
- テストの実行を可能にするオープンソースの評価プラットフォーム(ModelBench)と ModelGauge テストエンジンを公開する。
- テスト済みモデルを匿名化し、12機種以上のオープンチャット調整LMに対する例題評価を提供する。制限事項と利害関係者のフィードバックプロセスを文書化する。

実験結果
リサーチクエスチョン
- RQ1チャット調整言語モデルの安全性リスクを評価するための現実的で拡張可能な分類とテスト設計とは何か。
- RQ2ユースケース、ペルソナ、テスト項目をどのように構成すれば、再現性が高く解釈可能な安全性評価を生み出せるか。
- RQ3AI 安全性のオープンベンチマークの限界とリスクは何であり、ガバナンスとリリースルールは整合性をどのように維持できるか。
- RQ4モデルの評価をどのように標準化し、ユースケースごとに適応可能で透明性を保ちながら調整できるようにするべきか。
主な発見
- v0.5 で対象とされる7つの危険性カテゴリが含まれ、総計 13 のカテゴリが定義されている(v0.5 の対象は 7つ、残りは将来のバージョンへ延期)。
- ベンチマークは、SUT 安全性を評価するためにテンプレートを介して作成された 43,090 件のテスト項目で構成される。
- オープンでモジュール式の評価ツールチェーン(ModelBench と ModelGauge)は、標準化された、バージョン管理されたベンチマーク実行をサポートし、新しいシステム対象の拡張性を提供する。
- 公開された評価結果では、セーフティクリティカルな内容を保護するためにモデルは匿名化され、プロンプトの標的型悪用を防止する。
- 本論文は、オープン性の原則、ソフトウェアの Apache 2.0、リソースの CC-BY のライセンス、ベンチマークの完全性を保持するための厳格な出版社要件など、詳細なリリースフレームワークを提供している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。