[论文解读] Processing South Asian Languages Written in the Latin Script: the Dakshina Dataset
Dakshina 数据集为12种南亚语言提供拉丁字母文本和本地字母文本,包括一个罗马化词典和完整句子平行数据,并给出基线转写和语言建模结果。
This paper describes the Dakshina dataset, a new resource consisting of text in both the Latin and native scripts for 12 South Asian languages. The dataset includes, for each language: 1) native script Wikipedia text; 2) a romanization lexicon; and 3) full sentence parallel data in both a native script of the language and the basic Latin alphabet. We document the methods used for preparation and selection of the Wikipedia text in each language; collection of attested romanizations for sampled lexicons; and manual romanization of held-out sentences from the native script collections. We additionally provide baseline results on several tasks made possible by the dataset, including single word transliteration, full sentence transliteration, and language modeling of native script and romanized text. Keywords: romanization, transliteration, South Asian languages
研究动机与目标
- 引入一个新的资源(Dakshina),为12种南亚语言连接拉丁字母书写和本地字母书写数据。
- 为每种语言提供本地字母维基百科文本、罗马化词典及完整句子平行数据。
- 记录维基百科文本的准备方法、罗马化的收集,以及对保留句子的手动转写。
- 在本地字母文本和罗马化文本上建立单词级转写、完整句子转写和语言建模的基线结果。
提出的方法
- 描述数据集组成,包括本地字母维基百科文本、罗马化词典,以及完整句子平行数据。
- 概述为每种语言选择和准备维基百科文本的程序。
- 解释为抽样词典收藏具证实的罗马化形式。
- 详细说明从本地字母集合中对留待评估的句子进行的手动罗马化。
- 提供本地字母和罗马化文本的转写(单词级和全句)与语言模型的基线实验。
实验结果
研究问题
- RQ1Dakshina 为每种语言提供哪些数据资源(本地字母文本、罗马化词典与平行语料)?
- RQ2当将 Dakshina 数据集用于本地字母和罗马化文本时,基线转写和语言模型任务有多有效?
- RQ3为数据集的准备和罗马化所使用的方法及质量控制措施是什么,包括留待评估的句子?
- RQ4Dakshina 中不同语言和脚本的转写基线表现如何?
主要发现
- Dakshina 为12种南亚语言提供本地字母维基百科文本、罗马化词典以及完整句子平行数据。
- 论文记录了维基百科文本的准备与选择、具证实罗马化的收集,以及对留待评估句子进行的手动罗马化。
- 已确立本地字母和罗马化文本的单词级转写、全句转写及语言建模的基线结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。