[論文レビュー] SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0
SiDiaC-v.2.0は現時点で最大のシンハラ語 diachronic コーパスで、公開日ベースで1800–1955 CE、作成日ベースで5–20世紀 CE、185件の文書と241,491トークンをカバーします。広範な前処理、OCRベースの抽出、メタデータ、そして書かれた日付の注釈付きサブセットを含みます。
SiDiaC-v.2.0 is the largest comprehensive Sinhala Diachronic Corpus to date, covering a period from 1800 CE to 1955 CE in terms of publication dates, and a historical span from the 5th to the 20th century CE in terms of written dates. The corpus consists of 244k words across 185 literary works that underwent thorough filtering, preprocessing, and copyright compliance checks, followed by extensive post-processing. Additionally, a subset of 59 documents totalling 70k words was annotated based on their written dates. Texts from the National Library of Sri Lanka were selected from the SiDiaC-v.1.0 non-filtered list, which was digitised using Google Document AI OCR. This was followed by post-processing to correct formatting issues, address code-mixing, include special tokens, and fix malformed tokens. The construction of SiDiaC-v.2.0 was informed by practices from other corpora, such as FarPaHC, SiDiaC-v.1.0, and CCOHA. This was particularly relevant for syntactic annotation and text normalisation strategies, given the shared characteristics of low-resource language status between Faroese and the similar cleaning strategies utilised in CCOHA. This corpus is categorised into two layers based on genres: primary and secondary. The primary categorisation is binary, assigning each book to either Non-Fiction or Fiction. The secondary categorisation is more detailed, grouping texts under specific genres such as Religious, History, Poetry, Language, and Medical. Despite facing challenges due to limited resources, SiDiaC-v.2.0 serves as a comprehensive resource for Sinhala NLP, building upon the work previously done in SiDiaC-v.1.0.
研究の動機と目的
- SiDiaC-v.1.0より高品質かつ広範囲を目指し、シンハラ語 diachronic リソースを拡張する。
- シンハラ語歴史文書のデータフィルタリング、OCR抽出、ポスト処理を改善する。
- 該当する場合には書かれた日付を注釈して時間的言語分析を可能にする。
- メタデータとジャンル分類を提供して、共時的および通時的研究を支援する。
提案手法
- Natlib Sri Lanka からシンハラ語テキストを取得し、SiDiaC-v.1.0のフィルタリストを拡張する。
- テキスト抽出には Google Document AI OCR を使用し、手動のポスト処理と修正を行う。
- 著者性や歴史的資料に基づいて書かれた日付を文書ごとに注釈し、COHA風の日付付けに合わせる。
- 文末トークン (<eos>) と詩形式向けの接尾辞シフトトークン (<psi>) を挿入して、文レベルおよび詩歌対応の分析を可能にする。
- 各書籍ごとに title、author、genre、issued_date、written_date、ocr_confidence などのフィールドを含むメタデータを作成する。
- フィルタリングされたサブセットに対して世紀ごとの BoW 分析を行い、 diachronic な意味安定性と変化を探る。
実験結果
リサーチクエスチョン
- RQ1シンハラ語の diachronic カバレッジをデータ品質と著作権コンプライアンスを維持しつつ安全に拡大するにはどうすればよいか?
- RQ2書かれた日付の注釈がコーパスサイズと diachronic な分析に与える影響は、公開日だけを用いる場合と比較してどうか?
- RQ3SiDiaC-v.2.0 のジャンル分布と世紀ごとのトークン特徴はどのようになるか?
- RQ413世紀から20世紀にわたる選定された一貫した単語の diachronic な語脈はどのように進化するか?
主な発見
- コーパスは185件の文書にわたり241,491語トークンを含み、書かれた日付があるサブセットには67,005トークンがある。
- ユニークなシンハラ語トークンは58,173語で、SiDiaC-v.2.0の語の24.09%を占める。
- 後処理と OCR 主導の抽出は、同等の手順が適用された場合、SiDiaC-v.1.0のトークン数を減少させる(総トークン数は45571対241491の比較。
- SiDiaC-v.2.0では、135 書籍が Non-Fiction、50 書籍が Fiction。二次ジャンルには 86 Religious、54 Poetry、18 History、17 Language、5 Medical、5 Unclassifiedが含まれる。
- 書かれた日付でフィルタリングしたサブセットの世紀別 BoW 分析により、13世紀~20世紀の80語が一貫して現れ、意味頻度の変化に関する定性的観察が得られる(例:学習、知恵、宗教関連の語の関連性の変化)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。