QUICK REVIEW

[論文レビュー] DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

Mariia Fedorova, Andrey Kutuzov|arXiv (Cornell University)|Feb 12, 2026

Language and cultural evolution被引用数 0

ひとこと要約

DHPLT は、41 言語に対するオープンで大規模な長期コーパスを、3つの時期にわたって提供し、事前計算された語表現（文脈化埋め込み、語彙置換、静的語彙ベクトル）を用いて多言語の意味変化研究を可能にします。

ABSTRACT

In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.

研究の動機と目的

セマンティック変化モデリングのための多言語長期コーパスの不足を埋める。
各言語につきウェブクロールからサンプリングした3つの時期のコーパスを提供し、長期的な意味変化研究を可能にする。
ターゲット語の事前計算済み意味表現を提供し、研究者が独自のターゲット語集合を定義できるようにする。

提案手法

各言語ごとに、時期ごとにHPLT v3.0 から1百万ドキュメントをランダムサンプリングして3つの時期ベースのコーパスを構築（利用不可の場合は0.5M）。
時期を定義する時間信号としてウェブクロールのタイムスタンプを使用（初期: 2011-2015, Covid: 2020-2021, 最新: 2024-）。
言語を41言語に選択する。データ閾値と HPLT v3.0 T5 モデルの埋め込み生成の可用性に基づく。
ターゲット語出現の文脈化埋め込みをHPLT v3.0 T5、XLM-R、GPT-BERTモデルで生成。GPT-BERTとXLM-Rから語彙置換を作成。
各言語・時期ごとに静的語彙埋め込み（SGNS/word2vec）を生成し、跨期比較のためProcrustesで整列。
3つの時期全体でターゲット語の頻度を計算・公開。
T5語彙から派生した言語別のターゲット語セットを提供し、lemmas化とスクリプト整合性のフィルタリングを適用。

Figure 1: Number of documents per crawl year in the HPLT v3.0 datasets: English (left) and Georgian (right).

実験結果

リサーチクエスチョン

RQ1多言語の長期コーパスをどのように構築・再利用して、多様な言語の意味変化モデリングを行うことができるか？
RQ2文脈化埋め込み、語彙置換、静的埋め込みのどの意味表現がDHPLTデータの多言語意味変化分析を最もよく支援するか？
RQ3各言語でどのようにターゲット語を選択・準備すれば、堅牢なLSCD実験を可能にできるか？
RQ43つのDHPLT 時期を用いて、意味変化ダイナミクス（例: 複数時期の軌跡）に関するどのような洞察が得られるか？

主な発見

DHPLT は、各言語ごとに約1百万ドキュメントを含む3つの時期（2011-2015、2020-2021、2024-）を提供し、総計約170 GBおよび約590億語。
このリソースは、12の言語ファミリにわたる41言語をカバーし、完全なタイムスタンプを持つHPLT形式の3つの時期別コーパスを提供。
事前計算された表現には、T5、XLM-R、GPT-BERTからの文脈化トークン埋め込み、語彙置換、静的SWEモデルが含まれ、時期を跨いで整列。
言語ごとのターゲット語集合は平均約18,600lemmasで、lemmaを用いて言語学的に情報量の多いグルーピングを形成し、スクリプト整合性を確保。
正気度チェックにより、英語・スペイン語のAI/IAの同義語の意味移動傾向が明確であること、ロシア語を含む他言語でも同様のパターンが観察され、データセットの有用性が検証された。

Figure 2: Number of target words across 41 languages for all target words (top left), target words that are nouns (top right), verbs (bottom left), and adjectives (bottom right).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。