Skip to main content
QUICK REVIEW

[论文解读] Transparent Semantic Change Detection with Dependency-Based Profiles

Bach Phan-Tat, Kris Heylen|arXiv (Cornell University)|Jan 6, 2026
Language and cultural evolution被引用 0
一句话总结

论文提出一种无监督、基于依存关系的方法来检测词汇语义变化,利用 Jensen-Shannon 散度(JSD)跟踪依存共现分布的变化,从而得到可解释的结果,并在多种语言中实现竞争性性能。

ABSTRACT

Most modern computational approaches to lexical semantic change detection (LSC) rely on embedding-based distributional word representations with neural networks. Despite the strong performance on LSC benchmarks, they are often opaque. We investigate an alternative method which relies purely on dependency co-occurrence patterns of words. We demonstrate that it is effective for semantic change detection and even outperforms a number of distributional semantic models. We provide an in-depth quantitative and qualitative analysis of the predictions, showing that they are plausible and interpretable.

研究动机与目标

  • 采用显式的语言学、基于依存关系的信息来检测词汇语义变化(LSC)。
  • 开发一个透明的无监督方法,随时间跟踪依存槽–填充分布的变化。
  • 在 SemEval-2020 Task 1 数据上对多语言进行方法评估,并与基于嵌入的方法进行比较。
  • 提供定性分析,以展示基于依存关系的变化信号的可解释性和局限性。

提出的方法

  • 用高精度依存分析器对时间序列语料进行解析,获得基于槽的共现分布。
  • 用时间段内的依存槽(如 nmod、amod)及其填充物的分布来表示每个目标词。
  • 对不同时间段之间的每个槽计算 Jensen-Shannon Divergence(JSD),以衡量变化。
  • 对槽级 JSD 进行汇总(对 JSD > 0.5 的槽取均值),得到词条级别的变化分数。
  • 在计算 JSD 之前应用频率过滤以去除单例槽填充物。
  • 从槽填充物中移除词性标签,以减少标注噪声并聚焦于依存关系。
  • 可选地将频率过滤与移除词性标签结合,以提高性能。
  • 主要使用子任务2(等级排序),对于子任务1(二进制变化)采用基于阈值的策略;报告子任务1/2 的结果及定性分析。
Figure 1: Changes in the frequencies of 6 adjectival modifiers of the English noun plane between the 2 sub-corpora for English of the SemEval 2020 shared task 1 Schlechtweg et al. ( 2020 ) . Plane is annotated as semantically changed in the dataset
Figure 1: Changes in the frequencies of 6 adjectival modifiers of the English noun plane between the 2 sub-corpora for English of the SemEval 2020 shared task 1 Schlechtweg et al. ( 2020 ) . Plane is annotated as semantically changed in the dataset

实验结果

研究问题

  • RQ1能否通过显式的依存关系共现模式在不使用嵌入表示的情况下有效检测词汇语义变化?
  • RQ2依赖槽分布上的 Jensen-Shannon Divergence 如何反映跨语言的真实语义变化?
  • RQ3哪些预处理和降噪步骤(频率过滤、词性去除)会影响基于依存关系的 LSC 信号的可靠性与可解释性?
  • RQ4相对于基于嵌入的方法,在 SemEval-2020 Task 1 的数据(英语、德语、瑞典语、拉丁语)的等级变化和二元变化任务中,该方法的表现如何?
  • RQ5该方法在多大程度上具有可解释性,可以将哪些语言变化归因于特定依存槽?

主要发现

  • 基于依存共现变化并以 JSD 量化,在多语言上取得有竞争力的等级变化分数,有时优于若干基于嵌入的系统。
  • 频率过滤和移除词性标签显著提升了性能,结合设置在多语言中达到显著提升(例如平均斯皮尔曼相关接近或超过基线)。
  • 该方法具有较强的可解释性:可以对每个槽的变化贡献进行分解和检查,以追踪语言学上的变化(如新的医学用法、隐喻性转变)。
  • 在某些情况下,较高的槽级分歧可能因少数主导表达而高估变化;若真的创新落在 JSD 截止值以下,可能被错过。
  • 该方法在语义变化的语言学理论上表现出鲁棒性,与神经方法形成透明的互补,而非完全替代。
  • 定性分析展示了正确识别的变化(TP)和常见失败模式(FPs 和 FNs),这些都与槽级阈值及数据稀疏性相关。
Figure 2: The JSD contributions of different slot-fillers in the slot chi_compound of the English noun graft . Green bars indicate an increase in relative frequency; red bars indicate a decrease.
Figure 2: The JSD contributions of different slot-fillers in the slot chi_compound of the English noun graft . Green bars indicate an increase in relative frequency; red bars indicate a decrease.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。