Skip to main content
QUICK REVIEW

[논문 리뷰] The Radicalization Risks of GPT-3 and Advanced Neural Language Models

Kris McGuffie, Alex Newhouse|arXiv (Cornell University)|2020. 09. 15.
Terrorism, Counterterrorism, and Political Violence참고 문헌 5인용 수 94
한 줄 요약

이 논문은 극단주의자에 의한 GPT-3의 무기화 가능성을 평가하고, 신뢰할 수 있고 상호작용적인 선전물을 생성하며 온라인 급진화를 영향할 수 있음을 보여주고, 완화책을 제안한다.

ABSTRACT

In this paper, we expand on our previous research of the potential for abuse of generative language models by assessing GPT-3. Experimenting with prompts representative of different types of extremist narrative, structures of social interaction, and radical ideologies, we find that GPT-3 demonstrates significant improvement over its predecessor, GPT-2, in generating extremist texts. We also show GPT-3's strength in generating text that accurately emulates interactive, informational, and influential content that could be utilized for radicalizing individuals into violent far-right extremist ideologies and behaviors. While OpenAI's preventative measures are strong, the possibility of unregulated copycat technology represents significant risk for large-scale online radicalization and recruitment; thus, in the absence of safeguards, successful and efficient weaponization that requires little experimentation is likely. AI stakeholders, the policymaking community, and governments should begin investing as soon as possible in building social norms, public policy, and educational initiatives to preempt an influx of machine-generated disinformation and propaganda. Mitigation will require effective policy and partnerships across industry, government, and civil society.

연구 동기 및 목표

  • GPT-3가 극단주의 텍스트를 생성하고 급진화를 조장하는 데 무장화될 수 있는지를 평가한다.
  • 극단주의 서사 전반에 걸쳐 대화형, 정보성 및 설득력 있는 콘텐츠를 생성하는 GPT-3의 능력을 평가한다.
  • 제로샷, 퓨샷, 다국어 프롬프트가 출력 편향 및 급진화 가능성에 어떤 영향을 미치는지 조사한다.
  • 산업계, 정부, 시민 사회를 위한 완화 전략 및 정책 권고안을 식별한다.

제안 방법

  • 사상 일관성, 정확성 및 신뢰성를 테스트하기 위해 우익 극단주의 담론에서 차용한 프롬프트를 사용하여 이념적 일관성, 정확성 및 신뢰성을 테스트한다.
  • 제로샷 및 퓨샷 프롬프트를 통해 콘텐츠 생성 및 편향을 평가한다.
  • 백인 우월주의, QAnon, Atomwaffen Division 등 여러 극단주의 영역과 다국어 출력에 대한 분석.
  • 생성 능력과 범위의 향상을 보여주기 위한 GPT-2와의 비교.
  • 출력이 급진화 메커니즘 및 온라인 커뮤니티 역학과 연결되는 평가 프레임워크.

실험 결과

연구 질문

  • RQ1GPT-3가 GPT-2와 비교해 이념적으로 일관된 극단주의 콘텐츠를 얼마나 효과적으로 생성할 수 있는가?
  • RQ2GPT-3가 온라인 급진화 및 선전에 도움을 줄 수 있는 상호작용적이고 정보성 있으며 영향력 있는 자료를 생산할 수 있는가?
  • RQ3Few-shot 프롬프트가 특정 음모 이론이나 극단적 세계관으로 GPT-3를 어느 정도 편향시키는가?
  • RQ4강력한 언어 모델의 위험을 억제하는 데 필요한 완화 전략(정책, 탐지, Literacy)이 무엇인가?

주요 결과

  • GPT-3는 극단주의 텍스트를 생성하는 데 GPT-2에 비해 현저한 개선을 보인다.
  • GPT-3는 상호작용적이고 정보성 있으며 설득력 있는 콘텐츠를 생성하여 개인을 폭력적인 극우 이데올로기로 급진화시키는 데 도움이 될 수 있다.
  • 안전장치가 없으면 규제되지 않은 카피카트 모델이 대규모 온라인 급진화와 선전에 심각한 위험을 초래한다.
  • Few-shot 프롬프트는 출력물을 음모론적 콘텐츠와 이념적으로 일관된 서사로 편향시킬 수 있다.
  • GPT-3은 다국어 이해가 강건하며 러시아어 등 여러 언어로 일관된 콘텐츠를 생성할 수 있다.
  • GPT-3은 기존 극단주의 포럼을 확장하거나 대상 이데올로기에 맞춘 선언문을 포함한 새로운 토론을 만들 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.