QUICK REVIEW

[논문 리뷰] Sociotechnical Safety Evaluation of Generative AI Systems

Laura Weidinger, Maribeth Rauh|arXiv (Cornell University)|2023. 10. 18.

Ethics and Social Impacts of AI인용 수 38

한 줄 요약

본 논문은 생성형 AI 시스템의 안전성을 평가하기 위한 3계층 사회기술적 프레임워크를 제시하고, 현재의 평가 현황을 조사하여 간극과 이를 메우기 위한 실질적 조치를 식별한다.

ABSTRACT

Generative AI systems produce a range of risks. To ensure the safety of generative AI systems, these risks must be evaluated. In this paper, we make two main contributions toward establishing such evaluations. First, we propose a three-layered framework that takes a structured, sociotechnical approach to evaluating these risks. This framework encompasses capability evaluations, which are the main current approach to safety evaluation. It then reaches further by building on system safety principles, particularly the insight that context determines whether a given capability may cause harm. To account for relevant context, our framework adds human interaction and systemic impacts as additional layers of evaluation. Second, we survey the current state of safety evaluation of generative AI systems and create a repository of existing evaluations. Three salient evaluation gaps emerge from this analysis. We propose ways forward to closing these gaps, outlining practical steps as well as roles and responsibilities for different actors. Sociotechnical safety evaluation is a tractable approach to the robust and comprehensive safety evaluation of generative AI systems.

연구 동기 및 목표

생성형 AI 시스템의 안전 평가를 위한 사회기술적이고 3계층으로 구성된 프레임워크를 도입한다.
능력 평가에 인간 상호작용 및 시스템적 영향을 추가하여 맥락(context)을 안전 평가에 통합한다.
사회기술적 안전 평가의 현황을 조사하고 간극을 식별한다.
평가 격차를 해소하기 위한 실질적 조치와 이해관계자의 역할을 제안한다.
책임 있는 AI 개발의 일환으로 표준화되고 실무 지향적인 평가를 옹호한다.

제안 방법

능력, 인간 상호작용, 시스템적 영향을 포함하는 3계층 프레임워크를 정의하고 정당화한다.
기존 안전 평가를 조사하고 이를 3계층 프레임워크에 매핑한다.
기존 평가의 저장소를 개발하고 다중모달 맥락에서의 간극을 분석한다.
위험을 실행화하기 위한 실질적 조치를 제시하고 각 계층에 적합한 평가 방법을 선택한다.
안전하고 책임 있는 AI 배포를 안내하기 위한 역할, 책임 및 한계를 논의한다.

Figure 2.1: A sociotechnical framework for safety evaluation comprises three layers.

실험 결과

연구 질문

RQ1기술 구성요소를 넘어 확장할 때 생성형 AI에 대한 포괄적 안전 평가의 구성 요소는 무엇인가?
RQ2능력, 인간 상호작용, 시스템적 영향 계층이 실제 세계의 피해를 이해하는 데 어떻게 기여하는가?
RQ3다양한 모달리티와 맥락에 걸친 생성형 AI의 사회기술적 안전 평가에서 현재 격차는 무엇인가?
RQ4이러한 격차를 해소하고 이해관계자들을 안내할 수 있는 실질적 조치와 거버넌스 구조는 무엇인가?

주요 결과

3계층 사회기술적 프레임워크는 인간 상호작용과 시스템적 영향력을 포함함으로써 능력 평가에 필요한 맥락을 추가한다.
다중모달 및 시스템 전체 효과에서 특히 현재의 안전 평가에 실질적인 간극이 있어 포괄적 위험 평가를 저해한다.
기존 평가 저장소는 프레임워크와의 정합성과 불일치를 드러내며 간극을 해소하기 위한 실질적 조치를 강조한다.
평가는 표준화되고 지속적이어야 하며 책임 확보를 위해 개발자와 정책입안자의 명확한 역할을 포함해야 한다.
다중모달성은 맥락에 민감하고 계층 간 평가를 요구하는 새로운 평가 도전을 제시한다.

Figure 3.1: Evaluations per harm area and AI system output modality. No harm area is well covered across modalities.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.