Skip to main content
QUICK REVIEW

[论文解读] Yes but.. Can ChatGPT Identify Entities in Historical Documents?

Carlos-Emiliano González-Gallardo, Emanuela Boroş|arXiv (Cornell University)|Mar 30, 2023
Topic Modeling被引用 8
一句话总结

本文研究 ChatGPT 与多语种语言模型能否在历史文献中识别命名实体,强调 OCR 噪声、拼写变异和多语言带来的挑战,这些因素在不同语言与不同时期的表现受限。

ABSTRACT

Large language models (LLMs) have been leveraged for several years now, obtaining state-of-the-art performance in recognizing entities from modern documents. For the last few months, the conversational agent ChatGPT has "prompted" a lot of interest in the scientific community and public due to its capacity of generating plausible-sounding answers. In this paper, we explore this ability by probing it in the named entity recognition and classification (NERC) task in primary sources (e.g., historical newspapers and classical commentaries) in a zero-shot manner and by comparing it with state-of-the-art LM-based systems. Our findings indicate several shortcomings in identifying entities in historical text that range from the consistency of entity annotation guidelines, entity complexity, and code-switching, to the specificity of prompting. Moreover, as expected, the inaccessibility of historical archives to the public (and thus on the Internet) also impacts its performance.

研究动机与目标

  • 评估 ChatGPT 与多语种语言模型在历史文献中识别命名实体的能力。
  • 考察 OCR 噪声与历史拼写变异如何影响命名实体识别。
  • 评估大语言模型在历史数据上的跨语言与跨时间表现。
  • 讨论对数字化、标注指南和历史语料库中模型使用的影响。

提出的方法

  • 对 GPT-3.5 与多语种模型在历史文本与语言环境中的能力进行回顾与分析。
  • 讨论训练数据多样性与语言表现(如英语主导与其他语言的对比)。
  • 评估 OCR 错误、拼写变异与语言切换等因素对实体提取的影响。
  • 参考历史与文学语料库及对模型输出的约束(例如提示设计、标注)。
  • 涉及希腊语与法语的示例,以及历史姓名变体和翻译问题的注释。

实验结果

研究问题

  • RQ1ChatGPT 是否能够在多语言与跨时段的历史文献中识别命名实体?
  • RQ2OCR 噪声、拼写变异和多语言性如何影响历史文本中的实体识别?
  • RQ3当前大语言模型(包括 GPT-3.5)在历史实体提取方面的局限性,以及提示或微调如何可能影响表现?
  • RQ4在使用大语言模型进行历史命名实体识别时,对数字人文学科工作流程有何影响?

主要发现

  • GPT-3.5 与在多语言上训练的模型在命名实体识别方面显示出受语言与时期影响的有限表现。
  • 英语在训练数据中占比很高(超过 93% 的词数),而法语与现代希腊语的表示明显较低(分别为 1.82% 与 0.032%)。
  • 历史拼写变异和 OCR 错误导致实体被漏记或识别错误,在多语言和混合语言文本中挑战更大。
  • 历史文本中的实体往往需要处理非标准拼写与语言混合现象,当前模型难以持续解决这一问题。
  • 即使模型给出看起来合理的识别,也可能依赖非历史性或翻译后的参考,增加提取与理解的复杂性。
  • 研究强调历史文献带来超越标准 NLP 基准的独特挑战,需要在数字人文中进行谨慎的提示设计、数据筛选与评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。