Skip to main content
QUICK REVIEW

[논문 리뷰] Towards best practices in AGI safety and governance: A survey of expert opinion

Jonas Schuett, Noemi Dreksler|arXiv (Cornell University)|2023. 05. 11.
Ethics and Social Impacts of AI인용 수 15
한 줄 요약

AGI 연구소, 학계, 시민사회를 아우르는 51명의 전문가를 대상으로 한 설문조사는 AGI 연구소가 광범위한 안전 및 거버넌스 관행을 채택해야 한다는 광범위한 합의가 있음을 나타내며, 특히 사전 배포 위험 평가, 위험한 능력 평가, 제3자 모델 감사, 안전 제한, 그리고 레드 팀 운영에 대한 강한 지지가 있다.

ABSTRACT

A number of leading AI companies, including OpenAI, Google DeepMind, and Anthropic, have the stated goal of building artificial general intelligence (AGI) - AI systems that achieve or exceed human performance across a wide range of cognitive tasks. In pursuing this goal, they may develop and deploy AI systems that pose particularly significant risks. While they have already taken some measures to mitigate these risks, best practices have not yet emerged. To support the identification of best practices, we sent a survey to 92 leading experts from AGI labs, academia, and civil society and received 51 responses. Participants were asked how much they agreed with 50 statements about what AGI labs should do. Our main finding is that participants, on average, agreed with all of them. Many statements received extremely high levels of agreement. For example, 98% of respondents somewhat or strongly agreed that AGI labs should conduct pre-deployment risk assessments, dangerous capabilities evaluations, third-party model audits, safety restrictions on model usage, and red teaming. Ultimately, our list of statements may serve as a helpful foundation for efforts to develop best practices, standards, and regulations for AGI labs.

연구 동기 및 목표

  • AGI 연구소를 위한 안전 및 거버넌스 관행 중 광범위한 전문가 지지가 있는 것을 식별한다.
  • 지지 수준이 부문(AGI 연구소, 학계, 시민사회) 또는 성별에 따라 차이가 있는지 평가한다.
  • AGI 안전에 대한 표준, 규제 및 모범 사례 개발의 기초를 제공한다.
  • 정책결정자 및 표준 제정 기구에 의해 널리 지지되는 거버넌스 조치에 대해 정보를 제공한다.

제안 방법

  • AGI 연구소 관행에 대한 50개 문항을 92명의 초대 전문가에게 설문; 51개 응답(응답률 55.4%).
  • 5점 리커트 척도(-2에서 2)와 'I don\'t know'; 30개 필수 항목, 20개 선택 항목.
  • 통계 검정: 부문별 전반적 합의에 대한 Mann-Whitney U; 항목별 차이에 대한 카이제곱 검정; 다중 검정에 Holm-Bonferroni 보정.
  • 오픈 사이언스 관행: 사전 등록, 사전 분석 계획, OSF 데이터/코드 공유; 익명화된 인구통계 보고.
Figure 1: Sample by sector and gender | The figure shows the sector of work and gender of the respondents. Respondents could choose more than one sector in which they work.
Figure 1: Sample by sector and gender | The figure shows the sector of work and gender of the respondents. Respondents could choose more than one sector in which they work.

실험 결과

연구 질문

  • RQ1리더 전문가들이 AGI 연구소가 구현해야 한다고 광범위하게 합의하는 안전 및 거버넌스 관행은 무엇인가?
  • RQ2합의 수준이 부문(AGI 연구소 vs 학계 vs 시민사회)이나 성별에 따라 차이가 있는가?
  • RQ3설문에 포함된 50개 항목 외에 전문가들이 제안하는 추가 관행은 무엇인가?
  • RQ4이 연구 결과가 AGI 안전을 위한 정책, 표준, 규제 노력에 어떤 방식으로 정보를 제공할 수 있는가?

주요 결과

  • 50개 관행의 대다수는 구현되어야 한다는 광범위한 합의가 있으며, 각 관행에 대해 응답자의 평균 85.2%가 동의했다.
  • 주요 관행인 사전 배포 위험 평가, 위험한 능력 평가, 제3자 모델 감사, 안전 제한, 레드 팀 운영이 구현되어야 한다고 응답한 비율이 98%에 달했다.
  • 모든 항목에 대한 평균 동의 정도는 -2에서 2 척도에서 1.39로 일반적으로 동의 쪽으로 기울어 있다.
  • AGI 연구소 출신 응답자들이 학계나 시민사회보다 전반적 동의가 높았지만 항목별 차이는 유의하지 않았다.
  • 위험한 능력 평가, 사전 배포 위험 평가, 그리고 출판 정렬 전략 등 다섯 항목에서 반대가 전혀 없었다.
  • 기업 리스크 관리 및 특정 조정 관행(예: 연구소 간 심의, 다른 연구소에의 알림)에 대한 일부 불확실성이 남아 있다.
  • 응답자들은 설문 목록을 넘어 추가로 50개의 관행을 제안하여 거버넌스 설계의 확장이 필요함을 시사했다.
Figure 2: Percentages of responses for all statements | The figure shows the percentage of respondents choosing each answer option. At the end of each bar we show the number of people who answered each item. The items are ordered by the total number of respondents that “strongly” agreed. The full st
Figure 2: Percentages of responses for all statements | The figure shows the percentage of respondents choosing each answer option. At the end of each bar we show the number of people who answered each item. The items are ordered by the total number of respondents that “strongly” agreed. The full st

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.