Skip to main content
QUICK REVIEW

[논문 리뷰] Survey of Computational Approaches to Lexical Semantic Change

Nina Tahmasebi, Lars Borin|arXiv (Cornell University)|2018. 11. 15.
Language and cultural evolution참고 문헌 144인용 수 78
한 줄 요약

종시(時序) 대본 말뭉치에서 어휘 의미 변화와 어휘 대체를 탐지하기 위한 최근 계산 기법에 대한 포괄적 조사로, 단어 수준 및 의미-구분 방법, 평가 및 응용을 다룬다.

ABSTRACT

Our languages are in constant flux driven by external factors such as cultural, societal and technological changes, as well as by only partially understood internal motivations. Words acquire new meanings and lose old senses, new words are coined or borrowed from other languages and obsolete words slide into obscurity. Understanding the characteristics of shifts in the meaning and in the use of words is useful for those who work with the content of historical texts, the interested general public, but also in and of itself. The findings from automatic lexical semantic change detection, and the models of diachronic conceptual change are currently being incorporated in approaches for measuring document across-time similarity, information retrieval from long-term document archives, the design of OCR algorithms, and so on. In recent years we have seen a surge in interest in the academic community in computational methods and tools supporting inquiry into diachronic conceptual change and lexical replacement. This article is an extract of a survey of recent computational techniques to tackle lexical semantic change currently under review. In this article we focus on diachronic conceptual change as an extension of semantic change.

연구 동기 및 목표

  • 역사언어학 및 어휘 유형학에 연구를 고정시키고 어휘 변화에 대한 계산적 접근법을 검토한다.
  • 코퍼스 기반 증거를 사용하여 시간에 따른 개념 변화와 어휘 대체를 조사한다.
  • 공동출현, 신경 임베딩, 의미 유도에 의해 방법을 분류하여 의미 변화 식별을 수행한다.
  • 정보 검색 및 OCR를 위한 장기 아카이브의 실용적 응용 및 평가 방법론을 논의한다.

제안 방법

  • 공동출현 기반 방법(PMI, SVD, 맥락 벡터, 의미 밀도 분석)을 검토한다.
  • 세 가지 투영/정렬 전략(이전 기간에서 초기화, 선형 매핑, 2차 차원 유사도)을 통해 시간 슬라이스 간 신경 임베딩 방법을 조사한다.
  • 주제 모델링, clustering, 단어의 의미 유도 등을 포함한 의미 구분 방법을 논의한다.
  • 연대기적 개념 변화 프레임워크와 그것의 어휘 변화 및 명명된 엔터티 변화와의 관계를 설명한다.
  • 평가의 어려움과 언어학 및 역사 텍스트와의 학제 간 연계를 요약한다.

실험 결과

연구 질문

  • RQ1시대별 어휘 변화 탐지를 위한 주요 계산적 접근법은 무엇이며 그것이 역사언어학과 어떻게 연관되는가?
  • RQ2단어 수준 방법과 의미 구분 방법은 시간에 따른 의미 변화 탐지에서 어떻게 다른가?
  • RQ3연대기적 의미 변화 탐지의 표준 평가 절차와 그 한계는 무엇인가?
  • RQ4정보 검색, OCR 및 장기 문서 분석에서 어휘 의미 변화 탐지의 주요 응용 분야는 무엇인가?
  • RQ5어휘 대체 및 명명된 엔터티 변화가 연대기적 언어 변화의 계산 모델에 어떻게 반영되는가?

주요 결과

  • 변화 유형의 광범위한 분류학이 존재하며, 여기에는 연대기적 개념 변화, 어휘 대체, 명명된 엔터티 변화, 시점의 유사성이 포함된다.
  • 단어 수준 변화 탐지에서 공동출현 및 신경 임베딩 방법이 지배적이며, 시간 정렬과 투영을 위한 다양한 전략이 있다.
  • 의미 구분 방법(주제 모델링, 클러스터링, 유도)은 탐구되었으나 성능이 가변적이며 클러스터링 및 주석 선택에 의존한다.
  • 맥락 변동성 및 엔트로피 기반 방법은 변화 탐지를 가능하게 하며, 특정 설정에서 데이터 희소성에 강인하다.
  • 평가는 기준 데이터의 가용성, 다양한 의미 체계, 언어 및 시기에 따른 데이터 세트 차이로 인해 여전히 도전적이다.
  • 응용 분야로 정보 접근, 시간에 따른 문서 유사성, OCR 강건성, 어휘 진화 시각화 등이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.