[论文解读] Cultural Shift or Linguistic Drift? Comparing Two Computational Measures of Semantic Change
本文引入并比较了两种语义变化的计算度量方法:一种基于词向量距离的全局度量,以及一种新颖的局部邻域度量,该度量聚焦于词语最近语义邻居的变化。局部度量对文化变迁更敏感(例如,'cell' 从 '监狱牢房' 演变为 '手机'),而全局度量则能检测到规律性的语言演变(例如,'promise' 从行为性用法演变为一般性用法),使研究者能够区分语义变化的文化驱动因素与语言驱动因素。
Words shift in meaning for many reasons, including cultural factors like new technologies and regular linguistic processes like subjectification. Understanding the evolution of language and culture requires disentangling these underlying causes. Here we show how two different distributional measures can be used to detect two different types of semantic change. The first measure, which has been used in many previous works, analyzes global shifts in a word's distributional semantics, it is sensitive to changes due to regular processes of linguistic drift, such as the semantic generalization of promise ("I promise." -> "It promised to be exciting."). The second measure, which we develop here, focuses on local changes to a word's nearest semantic neighbors; it is more sensitive to cultural shifts, such as the change in the meaning of cell ("prison cell" -> "cell phone"). Comparing measurements made by these two methods allows researchers to determine whether changes are more cultural or linguistic in nature, a distinction that is essential for work in the digital humanities and historical linguistics.
研究动机与目标
- 使用计算方法区分语义变化中的文化变迁与语言漂移。
- 开发一种对突发性、文化驱动的语义变化敏感的新局部邻域语义变化度量方法。
- 在词性层面评估并比较两种度量方法——全局向量距离与局部邻居变化——的敏感性。
- 使用大规模历时语料库和针对性案例研究验证这些度量方法。
- 使研究者能够根据其研究重点(文化演变 vs. 语言演变)选择合适的语义变化度量方法。
提出的方法
- 使用历史语料库(Google N-grams、COHA)训练的历时 word2vec 嵌入向量,采用跳字模型加负采样(SGNS)方法,并进行语义空间对齐。
- 将全局语义变化计算为连续十年间词向量之间的欧几里得距离。
- 将局部语义变化定义为相邻时间周期内词语最近邻居(前10名)的 Jaccard 相似度。
- 使用混合效应回归模型,通过多种语言和数据集,比较不同词性(名词、动词、形容词、副词)的语义变化速率。
- 对六个词语开展案例研究:其中三个已知存在语言漂移(如 'actually'、'must'、'promise'),另三个存在文化变迁(如 'gay'、'virus'、'cell')。
- 通过比较两种度量方法的语义变化速率,评估其对文化因素与语言过程驱动的语义变化的敏感性。
实验结果
研究问题
- RQ1局部邻域语义变化度量是否比全局向量距离度量更有效地检测文化变迁?
- RQ2局部邻域度量是否对名词的语义变化更敏感,因为名词更容易受到文化驱动的语义变化影响?
- RQ3全局距离度量是否更能捕捉到动词及其他谓词中的规律性语言漂移?
- RQ4这两种度量在多大程度上能区分由文化因素与语言过程驱动的语义变化?
- RQ5通过比较两种度量,能否帮助研究者判断语义变化的主要成因是文化因素还是语言因素?
主要发现
- 在所有语言和数据集中,局部邻域度量对名词赋予了显著更高的语义变化速率,表明其对文化变迁具有敏感性。
- 全局距离度量对动词、形容词和副词赋予了更高的语义变化速率,与已知的语言漂移模式(如主观化和语法化)一致。
- 在案例研究中,经历文化变迁的词语(如 'cell'、'gay'、'virus')在局部邻域度量下显示出更大的变化。
- 经历规律性语言变迁的词语(如 'actually'、'must'、'promise')在全局距离度量下显示出更大的变化。
- 两种度量对不同类型的语义变化具有不同敏感性:局部度量能检测到突发性、文化驱动的语义变化;全局度量能检测到细微、系统性的语言漂移。
- 结果支持使用局部邻域度量进行文化变迁关键点检测,以及使用全局度量研究语法化和语言演变。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。