QUICK REVIEW

[논문 리뷰] DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

Mariia Fedorova, Andrey Kutuzov|arXiv (Cornell University)|2026. 02. 12.

Language and cultural evolution인용 수 0

한 줄 요약

DHPLT은 41개 언어에 대해 세 시점에 걸친 개방적이고 대규모의 다이아크로닉 코퍼스를 제공하며, 다국어 의미 변화 연구를 가능하게 하는 사전계산된 단어 표현들(맥락화된 임베딩, 어휘 치환, 정적 단어 벡터)을 제공합니다.

ABSTRACT

In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.

연구 동기 및 목표

의미 변화 모델링을 위한 다언어 다이아크로닉 코퍼스의 격차를 고 resource 언어를 넘어 해소한다.
웹 크롤에서 샘플링된 각 언어의 타임스탬프가 있는 세 개의 시기별 코퍼스를 제공해 장기적인 의미 변화 연구를 가능하게 한다.
타깃 어휘에 대한 사전 계산된 의미 표현을 제공해 실험을 빠르게 시작하고 연구자가 자신만의 타깃 어휘 집합을 정의할 수 있도록 한다.

제안 방법

각 시기마다 HPLT v3.0에서 100만 문서를 무작위 샘플링해 언어별로 시점별 코퍼트를 구성한다(사용 가능 시 50만 문서로 축소).
시기의 시간 신호로 웹 크롤 타임스탬프를 사용해 시기를 정의한다(초기: 2011-2015, Covid: 2020-2021, 최근: 2024-).
데이터 최소 요구치와 HPLT v3.0 T5 모델의 임베딩 생성 가능성에 기반해 41개 언어를 선정한다.
타깃 어휘의 맥락화된 임베딩을 HPLT v3.0 T5, XLM-R 및 GPT-BERT 모델을 사용해 생성하고, GPT-BERT 및 XLM-R로부터 어휘 치환을 산출한다.
언어/시기별 고정 벡터 임베딩(SGNS/word2vec)을 생성하고 Procrustes를 통해 시기를 넘나드는 비교 가능성을 확보한다.
세 시기에 걸친 타깃 어휘의 단어 빈도수 를 계산해 공표한다.
T5 어휘 집합에서 파생된 타깃 어휘 세트를 제공하되 형태소 분석 및 문자 체계 일치 필터링을 적용한다.

Figure 1: Number of documents per crawl year in the HPLT v3.0 datasets: English (left) and Georgian (right).

실험 결과

연구 질문

RQ1다양한 언어에서 다국어 다이아크로닉 코퍼스를 어떻게 구성하고 재사용할 수 있으며 의미 변화 모델링에 활용할 수 있는가?
RQ2맥락화된 임베딩, 어휘 치환, 고정 임베딩 등 어떤 의미 표현들이 DHPLT 데이터의 다국어 의미 변화 분석에 가장 잘 부합하는가?
RQ3Robust LSCD 실험을 가능하게 하려면 각 언어별로 타깃 어휘를 어떻게 선택하고 준비해야 하는가?
RQ4세 가지 DHPLT 시간대에서 다중 시기 경로와 같은 의미 변화 역학에 대한 어떤 통찰을 얻을 수 있는가?

주요 결과

DHPLT는 언어당 시기별로 약 100만 문서씩 총 3개 시기를 제공하며, 각 언어당 대략 170GB 및 약 590억 단어의 규모를 형성한다.
자원은 41개 언어를 12개 언어 계통에 걸쳐 다루며, 전체 타임스텝 코퍼스를 HPLT 형식으로 전체 타임스탬프와 함께 제공한다.
사전 계산된 표현은 T5, XLM-R, GPT-BERT의 맥락화된 토큰 임베딩, 어휘 치환 및 시기에 걸친 정적 SWE 모델을 포함한다.
언어별 타깃 어휘 세트의 평균은 약 18,600 렘마로 구성되며, 렘마는 언어학적으로 정보에 기반한 그룹핑과 문자 체계 일치를 보장하기 위해 사용된다.
사실 확인 결과 영어 및 스페인어의 AI/IA에 해당하는 대응어에서 명확한 의미 drift 경향이 나타나고, 러시아어 및 다른 언어에서도 유사한 패턴이 관찰되어 데이터 세트의 활용성을 확인한다.

Figure 2: Number of target words across 41 languages for all target words (top left), target words that are nouns (top right), verbs (bottom left), and adjectives (bottom right).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.