Skip to main content
QUICK REVIEW

[论文解读] Diachronic word embeddings and semantic shifts: a survey

Andrey Kutuzov, Lilja Øvrelid|arXiv (Cornell University)|Jun 9, 2018
Language and cultural evolution参考文献 62被引用 144
一句话总结

对以分布式模型为基础的历时词嵌入和语义转变检测的综述,概述数据来源、方法、对齐技术、规律、关系、应用以及面临的开放挑战。

ABSTRACT

Recent years have witnessed a surge of publications aimed at tracing temporal changes in lexical semantics using distributional methods, particularly prediction-based word embedding models. However, this vein of research lacks the cohesion, common terminology and shared practices of more established areas of natural language processing. In this paper, we survey the current state of academic research related to diachronic word embeddings and semantic shifts detection. We start with discussing the notion of semantic shifts, and then continue with an overview of the existing methods for tracing such time-related shifts with word embedding models. We propose several axes along which these methods can be compared, and outline the main challenges before this emerging subfield of NLP, as well as prospects and possible applications.

研究动机与目标

  • 澄清语义转变的概念及其语言学背景。
  • 综述用于随时间感知的词嵌入的分布式方法来追踪语义转变。
  • 比较历时嵌入的数据来源、评估策略和对齐技术。
  • 识别历时嵌入的规律、时间关系及潜在应用。
  • 突出该领域的开放挑战和未来方向。

提出的方法

  • 回顾用于研究语义转变的时间切分历时语料库和测试集。
  • 讨论预测型嵌入模型(SGNS、CBOW、GloVe)及计数基方法在历时分析中的应用。
  • 描述跨时间对齐嵌入的方法(Procrustes、二阶嵌入、动态模型、增量更新)。
  • 解释如何提取转变(全局对比与局部比较;突变检测;邻域变化)。
  • 检验关系和时序类比以研究历时语义关系。
  • 总结类比律般的一般化,并用对照实验批判性评估其有效性。

实验结果

研究问题

  • RQ1使用分布式模型研究语义转变时使用了哪些数据源和时间粒度?
  • RQ2如何跨时间对齐和有意义地比较词嵌入以检测转变?
  • RQ3哪些方法性选择(全局与局部、基于计数与基于预测、增量学习与联合学习)会影响语义转变的检测?
  • RQ4关于语义变化定律的证据有哪些,这些发现的鲁棒性如何?
  • RQ5历时词嵌入的实际应用与面临的开放挑战有哪些?

主要发现

  • 分布式模型在检测语义转变方面优于基于频率的方法。
  • 基于预测的嵌入及其增量或联合时态变体是现代历时分析的核心。
  • 对齐技术(Procrustes、二阶嵌入、局部锚点)使跨时间的有意义比较成为可能。
  • 对于是否存在普遍性的语义变化规律存在争议;在某些控制条件下,一些提出的规律可能是虚假的。
  • 历时嵌入使得时序语义关系和类比成为可能,在信息检索和事件检测等领域有应用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。