[论文解读] DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling
DHPLT 提供开放、大规模的跨时语料库,覆盖41种语言的三个时间段,并附有预计算的词表示(上下文嵌入、词汇替换、静态词向量),以支持多语言语义变化研究。
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
研究动机与目标
- 填补多语言跨时语料库在语义变化建模方面对高资源语言以外的空缺。
- 为每种语言提供从网络抓取抽样得到的三个带时间戳的语料库,以实现长期语义变化研究。
- 提供目标词的预计算语义表示,便于启动实验,同时允许研究人员自定义目标词集合。
提出的方法
- 按时间段从 HPLT v3.0 中随机抽取 100 万篇文档(若不可用则为 50 万)来构建每种语言的三个时段特定语料库。
- 以网络爬取时间戳作为时间信号来定义时间段(早期:2011-2015,疫情期:2020-2021,最近:2024-)。
- 基于最小数据门槛和 HPLT v3.0 T5 模型嵌入生成的可用性,选择 41 种语言。
- 使用 HPLT v3.0 T5、XLM-R 与 GPT-BERT 模型为目标词在出现处生成上下文化嵌入;并从 GPT-BERT 与 XLM-R 产生词汇替换。
- 为每种语言/时间段生成静态词嵌入(SGNS/word2vec),并通过 Procrustes 跨时期对齐以实现跨时期可比性。
- 计算并公布三个时间段的目标词频率。
- 提供基于 T5 词汇表的目标词集合,进行词形还原与脚本一致性筛选。

实验结果
研究问题
- RQ1如何构建并重复使用一个多语言跨时语料库来进行多语言语义变化建模?
- RQ2哪种语义表示(上下文嵌入、词汇替换、静态嵌入)最能支持 DHPLT 数据上的多语言语义变化分析?
- RQ3应如何为每个语言选择并准备目标词以实现鲁棒的 LSCD 实验?
- RQ4通过三个 DHPLT 时间段能观察到哪些关于语义变化动态的见解(如多周期轨迹)?
主要发现
- DHPLT 提供三个时间段(2011-2015、2020-2021、2024-)每种语言约 100 万篇文档,总计约 170 GB、约 590 亿词。
- 该资源覆盖 41 种语言、12 个语言家族,提供带完整时间戳的 HPLT 格式三段时间切片语料库。
- 预计算的表示包括来自 T5、XLM-R、GPT-BERT 的上下文化标记嵌入,以及跨时段对齐的词汇替代和静态 SWE 模型。
- 每种语言的目标词集合平均约 18,600 个词元,通过词元形成语言学上有意义的分组并确保脚本一致性。
- 可行性检查显示英语和西班牙语等效词(AI/IA)的明确语义漂移趋势,以及俄语等语言的类似模式,验证数据集的实用性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。