Skip to main content
QUICK REVIEW

[论文解读] Heroes, Villains, and Victims, and GPT-3: Automated Extraction of Character Roles Without Training Data

Dominik Stammbach, Maria Antoniak|arXiv (Cornell University)|May 16, 2022
Topic Modeling被引用 2
一句话总结

本文提出了一种零样本、基于提示的GPT-3方法,无需任何标注训练数据即可从叙事文本中提取英雄、反派和受害者的角色。通过将角色识别任务转化为机器阅读理解任务,使用如“谁是英雄?”等针对性问题,该方法在页岩气新闻语料库上的准确率超过基于词典的基线方法两倍以上,并实现了在政治话语和媒体中可扩展的叙事分析。

ABSTRACT

This paper shows how to use large-scale pre-trained language models to extract character roles from narrative texts without training data. Queried with a zero-shot question-answering prompt, GPT-3 can identify the hero, villain, and victim in diverse domains: newspaper articles, movie plot summaries, and political speeches.

研究动机与目标

  • 开发一种无需领域内标注训练数据的自动化叙事文本角色抽取方法(英雄、反派、受害者)。
  • 评估大规模预训练语言模型(特别是GPT-3)在识别新闻文章、电影概要和政治演讲等多样化领域中的叙事原型方面的有效性。
  • 探索在计算社会科学和数字人文研究中,使用零样本提示进行叙事框架分析的可行性。
  • 通过在多个语料库上的定性和定量评估,评估GPT-3输出的鲁棒性和可解释性。
  • 通过使用GPT-3标注分析美国国情咨文中的角色映射,探究叙事框架中的党派差异。

提出的方法

  • 将角色识别问题转化为机器阅读理解任务(MRCP),其中输入为叙事文本,问题为零样本提示,如“谁是本文中的英雄?”。
  • 使用GPT-3直接从输入文本生成答案,基于提示完成,无需微调或标注示例。
  • 对GPT-3的输出应用聚类技术,以提高可解释性,并减少当多个实体被分配到同一角色时的模糊性。
  • 使用基于词典的基线方法进行对比,该方法依赖预定义的关键字和语义模式来识别角色。
  • 在人工标注的页岩气相关新闻文章语料库上,使用标准分类指标评估性能。
  • 将该方法应用于美国国情咨文大型语料库(2001–2018年),并将角色分配结果与总统所属政党关联,以进行对比分析。

实验结果

研究问题

  • RQ1GPT-3是否能够在无任何标注训练数据的情况下,准确识别叙事文本中的英雄、反派和受害者角色?
  • RQ2使用GPT-3的零样本提示方法在角色抽取任务上的性能,与现有基于词典的基线方法相比如何?
  • RQ3在政治话语的叙事框架背景下,GPT-3的输出在多大程度上可以被有意义地聚类和解释?
  • RQ4在美国总统国情咨文的叙事框架中,是否存在可检测的党派差异,即在英雄、反派和受害者角色的设定上?
  • RQ5在使用类似GPT-3的大规模语言模型进行叙事角色抽取时,其局限性是什么,特别是关于偏见和成本方面?

主要发现

  • 在人工标注的页岩气相关新闻文章语料库上,GPT-3的零样本提示方法F1得分超过基于词典的基线方法两倍以上。
  • 在对迪士尼电影剧情概要的定性分析中,GPT-3的角色分配与主观叙事预期高度一致,显示出良好的可解释性和一致性。
  • 在应用于美国国情咨文(2001–2018年)时,该方法揭示了总统所属政党在叙事框架上的系统性差异,表明角色分配存在党派差异。
  • 对GPT-3输出的聚类显著提升了角色分配的可读性和一致性,尤其在代理指涉有限或模糊的文本中表现更优。
  • 该方法在仅命名一个代理的演讲中,经常将同一实体分配给多个角色(如英雄和反派),表明需要对提示进行修改以处理角色互斥性问题。
  • 尽管性能出色,该方法仍受限于GPT-3可能编码并传播社会偏见,以及在大规模语料库中扩展时产生的高昂推理成本。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。