Skip to main content
QUICK REVIEW

[論文レビュー] Yes but.. Can ChatGPT Identify Entities in Historical Documents?

Carlos-Emiliano González-Gallardo, Emanuela Boroş|arXiv (Cornell University)|Mar 30, 2023
Topic Modeling被引用数 8
ひとこと要約

本論文は ChatGPT および多言語大規模言語モデルが歴史文書の固有表現を識別できるかを検討し、OCR ノイズ、綴りの変異、 multilingualism による課題が言語や時代を超えて性能を制限することを指摘します。

ABSTRACT

Large language models (LLMs) have been leveraged for several years now, obtaining state-of-the-art performance in recognizing entities from modern documents. For the last few months, the conversational agent ChatGPT has "prompted" a lot of interest in the scientific community and public due to its capacity of generating plausible-sounding answers. In this paper, we explore this ability by probing it in the named entity recognition and classification (NERC) task in primary sources (e.g., historical newspapers and classical commentaries) in a zero-shot manner and by comparing it with state-of-the-art LM-based systems. Our findings indicate several shortcomings in identifying entities in historical text that range from the consistency of entity annotation guidelines, entity complexity, and code-switching, to the specificity of prompting. Moreover, as expected, the inaccessibility of historical archives to the public (and thus on the Internet) also impacts its performance.

研究の動機と目的

  • 歴史的文書における固有表現を識別する能力を ChatGPT および多言語言語モデルが持つかを評価する。
  • OCR ノイズと歴史的綴り変動が固有表現認識にどう影響するかを調べる。
  • 大規模言語モデルの歴史データに対する跨言語・跨時代パフォーマンスを評価する。
  • デジタル化、注釈ガイドライン、歴史コーパスにおけるモデルの使用に対する含意を論じる。

提案手法

  • 歴史テキストと言語全般にわたる GPT-3.5 および多言語モデルの能力のレビューと分析。
  • トレーニングデータの多様性と言語表現の扱い(例:英語の支配 vs 他言語)。
  • OCR エラー、綴り変異、コードスイッチングなどが固有表現抽出に与える影響の評価。
  • 歴史・文学コーパラと、モデル出力の制約(例:プロンプト設計、注釈)。
  • ギリシャ語・フランス語を含む実例と、歴史的名のバリアント・翻訳問題への言及。

実験結果

リサーチクエスチョン

  • RQ1ChatGPT は複数言語・複数時代にわたる歴史文書の固有表現を識別できるか。
  • RQ2OCR ノイズ、綴り変異、並存言語は歴史文献の固有表現認識にどのような影響を与えるか。
  • RQ3歴史的固有表現抽出における現在の LLM(GPT-3.5 を含む)の限界は何か。プロンプトやファインチューニングはパフォーマンスにどう影響するか。
  • RQ4LLM を歴史的固有表現認識に用いるデジタル人文学ワークフローへの含意は何か。

主な発見

  • GPT-3.5 および多言語モデルは多言語で訓練されているにもかかわらず、言語・時代依存の限られた固有表現認識性能を示す。
  • 英語はトレーニングデータで高く表現されており(語数の 93%超)、一方でフランス語および現代ギリシャ語ははるかに低い表現率(それぞれ 1.82%、0.032%)。
  • 歴史的綴り変異と OCR エラーにより固有表現が欠落・誤認されることがあり、多言語・混在言語テキストでより広い課題となる。
  • 歴史的テキストの固有表現には非標準的な綴りや言語混合の処理が求められるが、現行モデルは一貫した解決に苦戦する。
  • モデルがもっともらしい同定を生成しても、歴史的でない参照や翻訳された参照に依存する場合があり、抽出と解釈を複雑にする。
  • 本研究は歴史的文書が標準的 NLP ベンチマークを超えた独自の課題を提示することを強調し、デジタル人文学における慎重なプロンプト設計・データ選別・評価を必要とする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。