[论文解读] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change
本论文在四种语言的六个历史语料上训练了跨时的词嵌入(PPMI、SVD、SGNS),以量化语义变化,并发现两条规律:1)conformity 法则—变化速率随词频的下降而成反比;2)创新法则—多义性在控制词频后会提高变化速率。
Understanding how words change their meanings over time is key to models of language and cultural evolution, but historical data on meaning is scarce, making theories hard to develop and test. Word embeddings show promise as a diachronic tool, but have not been carefully evaluated. We develop a robust methodology for quantifying semantic change by evaluating word embeddings (PPMI, SVD, word2vec) against known historical changes. We then use this methodology to reveal statistical laws of semantic evolution. Using six historical corpora spanning four languages and two centuries, we propose two quantitative laws of semantic change: (i) the law of conformity---the rate of semantic change scales with an inverse power-law of word frequency; (ii) the law of innovation---independent of frequency, words that are more polysemous have higher rates of semantic change.
研究动机与目标
- 动机:使用随时间的分布式词嵌入来研究语义变化。
- 开发一个稳健的方法学,利用多种嵌入方法(PPMI、SVD、SGNS)和基准来量化语义变化。
- 识别跨语言的语义演化模式,并形成将词频与多义性联系起来的定量规律。
提出的方法
- 使用 PPMI、SVD 和 SGNS 为每个时期构建时间切片的词嵌入。
- 使用正交 Procrustes 对齐各时期的词嵌入,以保持跨时间的余弦相似性。
- 通过以下方式量化语义变化:(i) 词对之间的成对相似性时间序列,(ii) 个别词在时间上的语义位移。
- 对齐时态准确性和历时有效性进行评估,基于历史基准。
- 使用带随机词截距的线性混合模型,将语义变化速率建模为词频和多义性的函数。
- 将多义性定义为基于 PPMI 的共现网络的局部聚类系数,并在分析中使用对数词频变换。
实验结果
研究问题
- RQ1不同的嵌入方法在捕捉跨语言的历时语义变化方面有何差异?
- RQ2在控制多义性后,词频与语义变化速率之间的关系是什么?
- RQ3在考虑词频后,多义性与语义变化之间的关系如何?
- RQ4是否存在可以通过统计规律捕捉的跨语言语义演化规律?
主要发现
- 两条定量的语义变化规律:conformity 法则(变化速率与词频的幂次呈负相关)和创新法则(在控制词频后,多义词的变化更快)。
- 在跨语言中,变化速率 Δ(w) ≈ f(w)^{β_f} · d(w)^{β_d},其中 β_f < 0 且 β_d > 0。
- 词频效应在数据集间具有鲁棒性;高频词的变化更慢。
- 控制词频后,多义性效应仍然存在,上下文多样性越高,语义变化越快。
- SGNS 通常在发现转变方面效果最佳,而 SVD 对检测微妙变化更敏感;PPMI 在三者中表现最差。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。