Skip to main content
QUICK REVIEW

[论文解读] SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

Nevidu Jayatilleke, Nisansa de Silva|arXiv (Cornell University)|Mar 11, 2026
Digital Humanities and Scholarship被引用 0
一句话总结

SiDiaC-v.2.0 是迄今为止最大的僧伽罗语年代性语料库,按出版日期覆盖 1800–1955 CE、按写作日期覆盖 5th–20th century CE,总计 185 篇文献和 241,491 个词元。它包含广泛的预处理、基于 OCR 的提取、元数据,以及对写作日期进行子集注释。

ABSTRACT

SiDiaC-v.2.0 is the largest comprehensive Sinhala Diachronic Corpus to date, covering a period from 1800 CE to 1955 CE in terms of publication dates, and a historical span from the 5th to the 20th century CE in terms of written dates. The corpus consists of 244k words across 185 literary works that underwent thorough filtering, preprocessing, and copyright compliance checks, followed by extensive post-processing. Additionally, a subset of 59 documents totalling 70k words was annotated based on their written dates. Texts from the National Library of Sri Lanka were selected from the SiDiaC-v.1.0 non-filtered list, which was digitised using Google Document AI OCR. This was followed by post-processing to correct formatting issues, address code-mixing, include special tokens, and fix malformed tokens. The construction of SiDiaC-v.2.0 was informed by practices from other corpora, such as FarPaHC, SiDiaC-v.1.0, and CCOHA. This was particularly relevant for syntactic annotation and text normalisation strategies, given the shared characteristics of low-resource language status between Faroese and the similar cleaning strategies utilised in CCOHA. This corpus is categorised into two layers based on genres: primary and secondary. The primary categorisation is binary, assigning each book to either Non-Fiction or Fiction. The secondary categorisation is more detailed, grouping texts under specific genres such as Religious, History, Poetry, Language, and Medical. Despite facing challenges due to limited resources, SiDiaC-v.2.0 serves as a comprehensive resource for Sinhala NLP, building upon the work previously done in SiDiaC-v.1.0.

研究动机与目标

  • 用比 SiDiaC-v.1.0 更高质量、覆盖面更广的方式扩展僧伽罗语年代性资源。
  • 改进数据过滤、OCR 提取和对僧伽罗语历史文本的后处理。
  • 在可适用处标注写作日期以便进行时间维度语言分析。
  • 提供元数据与体裁分类以支持共时与年代性研究。

提出的方法

  • 从 Natlib Sri Lanka 获取僧伽罗语文本并在 SiDiaC-v.1.0 的过滤清单基础上扩展。
  • 使用 Google Document AI OCR 提取文本,并进行人工后处理与校正。
  • 基于作者身份及历史来源为文献标注写作日期以与 COHA 风格的日期对齐。
  • 插入句末标记 (<eos>) 与诗歌后缀移位标记 (<psi>),以实现句子级和诗歌感知分析。
  • 为每本书创建元数据字段,如 title、author、genre、issued_date、written_date、ocr_confidence。
  • 对经过过滤的子集执行按世纪的词袋分析,以探索年代性语义稳定性与变化。

实验结果

研究问题

  • RQ1在保持数据质量与版权合规的前提下,如何安全地扩大僧伽罗语年代性覆盖范围?
  • RQ2相较仅使用出版日期,写作日期注释对语料库规模与年代性分析有何影响?
  • RQ3SiDiaC-v.2.0 在各世纪的体裁分布与词元级特征为何?
  • RQ4从 13 世纪到 20 世纪,选定的一致性词汇的年代性语境如何演变?

主要发现

  • 该语料库在 185 篇文献中共有 241,491 个词元,在标注写作日期的子集中有 67,005 个词元。
  • 58,173 个唯一僧伽罗语词元占 SiDiaC-v.2.0 的词汇总量的 24.09%。
  • 在应用相似的后处理与 OCR 提取步骤时,SiDiaC-v.1.0 的词元数量会下降(总词元数为 45571,而 SiDiaC-v.2.0 为 241491)。
  • 在 SiDiaC-v.2.0 中,135 本为非小说,50 本为小说;次要体裁包括 86 宗教、54 诗歌、18 历史、17 语言、5 医学与 5 未分类。
  • 对写作日期筛选子集的按世纪词袋分析在 13–20 世纪识别出 80 个一致性词汇,并对意义-频次的变化给出定性观察(如与学习、智慧及宗教关联的词汇)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。