Skip to main content
QUICK REVIEW

[논문 리뷰] Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted?

Markus Anderljung, Julian Hazell|arXiv (Cornell University)|2023. 03. 16.
Ethics and Social Impacts of AI인용 수 13
한 줄 요약

이 논문은 오용을 방지하기 위해 AI 능력과 일부 비-AI 능력에 대한 표적 제한의 필요성을 주장하고, 그러한 개입이 언제 정당화되는지 평가하기 위한 프레임워크와 분류체계를 개발한다.

ABSTRACT

Artificial intelligence (AI) systems will increasingly be used to cause harm as they grow more capable. In fact, AI systems are already starting to be used to automate fraudulent activities, violate human rights, create harmful fake images, and identify dangerous toxins. To prevent some misuses of AI, we argue that targeted interventions on certain capabilities will be warranted. These restrictions may include controlling who can access certain types of AI models, what they can be used for, whether outputs are filtered or can be traced back to their user, and the resources needed to develop them. We also contend that some restrictions on non-AI capabilities needed to cause harm will be required. Though capability restrictions risk reducing use more than misuse (facing an unfavorable Misuse-Use Tradeoff), we argue that interventions on capabilities are warranted when other interventions are insufficient, the potential harm from misuse is high, and there are targeted ways to intervene on capabilities. We provide a taxonomy of interventions that can reduce AI misuse, focusing on the specific steps required for a misuse to cause harm (the Misuse Chain), and a framework to determine if an intervention is warranted. We apply this reasoning to three examples: predicting novel toxins, creating harmful images, and automating spear phishing campaigns.

연구 동기 및 목표

  • AI 오용은 능력이 커질수록 악용이 증가할 것이며, 표적화된 능력 제한이 해를 줄일 수 있다는 점을 제시한다.
  • 비용과 트레이드오프를 고려한 오용 제한(interventions) 분류체계를 제안한다.
  • 오용 능력 제한을 결정하는 프레임워크(Misuse Chain)를 개발한다.
  • AI 능력에만 국한하지 않고 비-AI 능력 제어를 포함한 제한이 필요하다고 주장한다.
  • 실용적인 지침을 보여주기 위해 구체적 오용 시나리오에 프레임워크를 적용한다.

제안 방법

  • 특정 단계에서 오용을 차단하여 AI 오용을 감소시킬 수 있는 개입의 분류체계를 개발한다.
  • Misuse Chain 프레임워크를 도입하여 해를 방해할 수 있는 위치를 매핑한다.
  • 능력 제한이 정당화되는 경우의 기준(위험, 다른 개입의 충분성, 표적 가능성)을 논의한다.
  • 세 가지 오용 영역에 대한 적용 예를 제공한다: 신규 독성 물질 예측, 유해 이미지 생성, 자동 스피어 피싱.
  • 능력 제한과 Misuse-Use 트레이드오프를 대조하여 선택적 배치를 정당화한다.

실험 결과

연구 질문

  • RQ1오용을 방지하기 위해 AI 능력에 대한 제한이 어떤 조건에서 정당화되는가?
  • RQ2능력 제한은 어떤 형태를 취할 수 있는가(예: 접근, 활동, 산출물, 추적 가능성, 자원) 그리고 이것이 비-AI 제한과 어떻게 상호작용하는가?
  • RQ3Misuse Chain과 같은 체계적 프레임워크가 오용 시나리오 전반에 걸친 개입의 효과와 필요성을 어떻게 평가할 수 있는가?
  • RQ4타깃이 된 능력 제한이 악용을 감소시키면서도 유익한 사용을 지나치게 방해하지 않는 구체적 예시는 무엇인가?

주요 결과

  • 다른 개입이 불충분하고 오용으로 인한 잠재적 피해가 큰 경우에 표적화된 능력 제한은 정당화될 수 있다.
  • 제한은 접근 제어, 허용 사용 사례, 출력 필터링 또는 추적 가능성, 자원 제한 등을 포함할 수 있다.
  • 피해를 일으키는 비-AI 능력에 대한 제한도 필요할 수 있다.
  • Misuse Chain 프레임워크는 구조화된 방식으로 피해를 의미 있게 줄일 수 있는 개입 포인트를 식별하는 데 도움을 준다.
  • 독성 예측, 유해 이미지 생성, 스피어 피싱에 적용하면 개입이 오용 과정을 어떻게 방해하는지 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.