QUICK REVIEW

[論文レビュー] Sociotechnical Safety Evaluation of Generative AI Systems

Laura Weidinger, Maribeth Rauh|arXiv (Cornell University)|Oct 18, 2023

Ethics and Social Impacts of AI被引用数 38

ひとこと要約

本論文は、生成 AI システムの安全性を評価するための3層の社会技術的フレームワークを提案し、ギャップを特定しそれを埋める実践的手順を見つけるために現在の評価状況を調査します。

ABSTRACT

Generative AI systems produce a range of risks. To ensure the safety of generative AI systems, these risks must be evaluated. In this paper, we make two main contributions toward establishing such evaluations. First, we propose a three-layered framework that takes a structured, sociotechnical approach to evaluating these risks. This framework encompasses capability evaluations, which are the main current approach to safety evaluation. It then reaches further by building on system safety principles, particularly the insight that context determines whether a given capability may cause harm. To account for relevant context, our framework adds human interaction and systemic impacts as additional layers of evaluation. Second, we survey the current state of safety evaluation of generative AI systems and create a repository of existing evaluations. Three salient evaluation gaps emerge from this analysis. We propose ways forward to closing these gaps, outlining practical steps as well as roles and responsibilities for different actors. Sociotechnical safety evaluation is a tractable approach to the robust and comprehensive safety evaluation of generative AI systems.

研究の動機と目的

生成AIシステムの安全性評価のための社会技術的で3層のフレームワークを紹介する。
capability evaluations に、human interaction と systemic impact の層を追加して、文脈を安全性評価に組み込む。
社会技術的安全評価の現状を調査し、ギャップを特定する。
評価ギャップを埋めるための実践的な手順と関係者の役割を提案する。
責任あるAI開発の一部として、標準化された実践志向の評価を提案する。）
method:[

提案手法

capability, human interaction, and systemic impact の3層フレームワークを定義し、正当化する。
既存の安全性評価を調査し、それらを3層フレームワークにマッピングする。
既存の評価のリポジトリを開発し、マルチモーダル文脈におけるギャップを分析する。
リスクを実務化するための実践的手順を提供し、層ごとに適切な評価手法を選択する。
安全で責任あるAI展開を guider するための役割、責任、および制限事項について議論する。

Figure 2.1: A sociotechnical framework for safety evaluation comprises three layers.

実験結果

リサーチクエスチョン

RQ1技術的要素を超えて拡張する場合、生成AIにおける包括的な安全性評価とは何か？
RQ2capability, human interaction, and systemic impact の層は、実世界の被害を理解するうえでどのように寄与するか？
RQ3マルチモーダルおよび文脈横断での生成AIにおける社会技術的安全評価の現状のギャップは何か？
RQ4これらのギャップを埋め、利害関係者を導く実践的手順とガバナンス構造は何か？

主な発見

3層の社会技術的フレームワークは、human interaction と systemic impacts を組み込むことにより、capability evaluations に必要な文脈を追加する。
現在の安全性評価には実質的なギャップがあり、特にマルチモーダルおよびシステム全体の影響において、総合的なリスク評価を妨げている。
既存の評価のリポジトリは、フレームワークへの適合と不適合を明らかにし、ギャップを埋める実践的手順を浮き彫りにする。
評価は標準化され、継続的であるべきで、開発者と政策立案者の明確な役割を含めて説明責任を確保する。
マルチモダリティは、文脈依存のクロスレイヤー評価を必要とする新たな評価課題をもたらす。

Figure 3.1: Evaluations per harm area and AI system output modality. No harm area is well covered across modalities.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。