[论文解读] The Radicalization Risks of GPT-3 and Advanced Neural Language Models
本研究评估GPT-3被极端分子武器化的潜力,显示它能够生成可信、互动性强的宣传材料并影响在线激进化,并提出缓解措施。
In this paper, we expand on our previous research of the potential for abuse of generative language models by assessing GPT-3. Experimenting with prompts representative of different types of extremist narrative, structures of social interaction, and radical ideologies, we find that GPT-3 demonstrates significant improvement over its predecessor, GPT-2, in generating extremist texts. We also show GPT-3's strength in generating text that accurately emulates interactive, informational, and influential content that could be utilized for radicalizing individuals into violent far-right extremist ideologies and behaviors. While OpenAI's preventative measures are strong, the possibility of unregulated copycat technology represents significant risk for large-scale online radicalization and recruitment; thus, in the absence of safeguards, successful and efficient weaponization that requires little experimentation is likely. AI stakeholders, the policymaking community, and governments should begin investing as soon as possible in building social norms, public policy, and educational initiatives to preempt an influx of machine-generated disinformation and propaganda. Mitigation will require effective policy and partnerships across industry, government, and civil society.
研究动机与目标
- 评估GPT-3是否可以被武器化以生成极端主义文本并影响激进化。
- 评估GPT-3在极端主义叙事中生成互动、信息性和说服性内容的能力。
- 检验提示(零-shot、少量-shot、多语言)如何影响输出偏见和激进化潜力。
- 确定行业、政府和民间社会的缓解策略和政策建议。
提出的方法
- 采用来自右翼极端分子叙事的提示,以测试意识形态的一致性、准确性和可信度。
- 零-shot和少量-shot提示,以评估内容生成和偏见。
- 在多种极端领域(白人至上、QAnon、Atomwaffen Division)及多语言输出中的分析。
- 与GPT-2的比较以显示生成能力和范围的改进。
- 将输出与激进化机制和在线社区动态联系起来的评估框架。
实验结果
研究问题
- RQ1与GPT-2相比,GPT-3在生成意识形态一致的极端内容方面有多大效果?
- RQ2GPT-3是否能产生互动、信息性和有影响力的材料,可能帮助在线激进化和招募?
- RQ3少量-shot提示在多大程度上使GPT-3偏向特定阴谋论或极端世界观?
- RQ4为抑制强大语言模型的风险,需要哪些缓解策略(政策、检测、素养)?
主要发现
- GPT-3在生成极端文本方面显著优于GPT-2。
- GPT-3可以生成模仿互动性、信息性和有影响力的内容的文本,用于将个体激向暴力极右翼意识形态。
- 若无保障措施,未监管的仿制模型对大规模在线激进化和招募构成重大风险。
- 少量-shot提示可能使输出偏向阴谋论内容和意识形态一致的叙事。
- GPT-3展现出强大的多语言理解能力,能够用如俄语等语言生成连贯内容。
- GPT-3可以扩展现有极端主义论坛或撰写新帖子,包括宣言,与目标意识形态保持一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。