QUICK REVIEW

[논문 리뷰] Yes but.. Can ChatGPT Identify Entities in Historical Documents?

Carlos-Emiliano González-Gallardo, Emanuela Boroş|arXiv (Cornell University)|2023. 03. 30.

Topic Modeling인용 수 8

한 줄 요약

이 논문은 ChatGPT와 다국어 LMs가 역사 문서에서 명명된 엔터티를 식별할 수 있는지 여부를 조사하며 OCR 노이즈, 철자 변 variation, 다언어성으로 인한 도전이 성능을 언어와 시대에 걸쳐 제약한다는 점을 강조합니다.

ABSTRACT

Large language models (LLMs) have been leveraged for several years now, obtaining state-of-the-art performance in recognizing entities from modern documents. For the last few months, the conversational agent ChatGPT has "prompted" a lot of interest in the scientific community and public due to its capacity of generating plausible-sounding answers. In this paper, we explore this ability by probing it in the named entity recognition and classification (NERC) task in primary sources (e.g., historical newspapers and classical commentaries) in a zero-shot manner and by comparing it with state-of-the-art LM-based systems. Our findings indicate several shortcomings in identifying entities in historical text that range from the consistency of entity annotation guidelines, entity complexity, and code-switching, to the specificity of prompting. Moreover, as expected, the inaccessibility of historical archives to the public (and thus on the Internet) also impacts its performance.

연구 동기 및 목표

ChatGPT와 다국어 언어 모델이 역사 문서에서 명명된 엔터티를 식별하는 능력을 평가합니다.
OCR 노이즈와 역사적 철자 변형이 명명된 엔터티 인식에 미치는 영향을 검토합니다.
대형 언어 모델의 언어 간 및 시간 간 성능을 역사 데이터에 대해 평가합니다.
역사 코퍼스에서의 디지털화, 주석 가이드라인 및 모델 활용에 대한 시사점을 논의합니다.]
method ::
method
{"method":["GPT-3.5 및 다국어 모델의 역사적 텍스트 및 언어에 대한 능력을 검토하고 분석합니다.","훈련 데이터 다양성과 언어 표현(예: 영어 우세 대 다른 언어)을 논의합니다.","OCR 오류, 철자 변 variation, 코드 스위칭 등의 요인이 엔터티 추출에 미치는 영향을 평가합니다.","역사적 및 문학적 코퍼스에 대한 참조와 모델 출력의 제약(예: 프롬프트 설계, 주석)을 다룹니다.","그리스어와 프랑스어를 포함한 사례와 역사적 이름 변형 및 번역 이슈에 대한 주석을 포함합니다.]
research_questions

제안 방법

GPT-3.5 및 다국어 모델의 역사적 텍스트 및 언어에 대한 능력을 검토하고 분석합니다.
훈련 데이터 다양성과 언어 표현(예: 영어 우세 대 다른 언어)을 논의합니다.
OCR 오류, 철자 변 variation, 코드 스위칭 등의 요인이 엔터티 추출에 미치는 영향을 평가합니다.
역사적 및 문학적 코퍼스에 대한 참조와 모델 출력의 제약(예: 프롬프트 설계, 주석)을 다룹니다.
그리스어와 프랑스어를 포함한 사례와 역사적 이름 변형 및 번역 이슈에 대한 주석을 포함합니다.]
research_questions

실험 결과

연구 질문

RQ1ChatGPT가 여러 언어와 시간대에 걸쳐 역사 문서에서 명명된 엔터티를 식별할 수 있는가?
RQ2OCR 노이즈, 철자 변 variation, 다언어성이 역사 텍스트의 엔터티 인식에 어떤 영향을 미치는가?
RQ3역사적 엔터티 추출에서 현재 LLM의 한계는 무엇이며 프롬프트나 미세조정이 성능에 어떤 영향을 미칠 수 있는가?
RQ4역사 명명된 엔터티 인식에 LLM을 활용할 때 디지털 인문학 워크플로에 대한 함의는 무엇인가?

주요 결과

GPT-3.5 및 다국어 모델은 다수의 언어에 대해 학습되었으나, 엔터티 인식 성능은 언어 및 기간 의존적이며 제한적이다.
영어가 학습 데이터에서 매우 많이 대표되며(단어 수의 93% 이상), 프랑스어와 현대 그리스어는 훨씬 낮은 대표성을 보인다(각각 1.82%, 0.032%).
역사적 철자 변 variation 및 OCR 오류로 인해 엔터티가 누락되거나 잘못 식별되며, 다언어 및 혼합 언어 텍스트에서 더 큰 도전이 있다.
역사적 텍스트의 엔터티는 비표준 철자 및 언어 혼합 처리를 필요로 하는 경우가 많으며, 현재 모델은 이를 일관되게 해결하는 데 어려움을 겪는다.
모델이 그럴듯한 식별을 생성하더라도 비역사적이거나 번역된 참고를 의존할 수 있어 추출 및 해석이 복잡해진다.
이 연구는 역사 문서가 표준 NLP 벤치마크를 넘는 고유한 도전을 제시하므로 디지털 인문학에서 신중한 프롬프트 설계, 데이터 큐레이션 및 평가가 필요함을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.