Skip to main content
QUICK REVIEW

[论文解读] AI4Bharat-IndicNLP Corpus: Monolingual Corpora and Word Embeddings for Indic Languages

Anoop Kunchukuttan, Divyanshu Kakwani|arXiv (Cornell University)|Apr 30, 2020
Natural Language Processing Techniques参考文献 23被引用 43
一句话总结

本文引入 IndicNLP 语料库,覆盖 10 种印度语言的 27 亿词,提供预训练的 FastText 嵌入,并在新闻类别分类、词语相似性/类比、双语词汇诱导等基线任务上对比公开基线,显示出改进。

ABSTRACT

We present the IndicNLP corpus, a large-scale, general-domain corpus containing 2.7 billion words for 10 Indian languages from two language families. We share pre-trained word embeddings trained on these corpora. We create news article category classification datasets for 9 languages to evaluate the embeddings. We show that the IndicNLP embeddings significantly outperform publicly available pre-trained embedding on multiple evaluation tasks. We hope that the availability of the corpus will accelerate Indic NLP research. The resources are available at https://github.com/ai4bharat-indicnlp/indicnlp_corpus.

研究动机与目标

  • 为 10 种 Indic 语言创建大规模单语语料库,反映当代用法。
  • 提供在 IndicNLP 语料库上训练的预训练词嵌入。
  • 开发下游评估数据集(新闻类别分类)和无监督形态学分析器。
  • 证明 IndicNLP 的嵌入在多种 NLP 任务上优于公开可用的嵌入。

提出的方法

  • 从新闻源和维基百科收集并对通用领域的单语数据进行预处理。
  • 对 Indic 文本进行标准化、句子分割,并使用 Indic NLP Library 进行分词。
  • 在每种语言上训练 300 维 FastText skip-gram 嵌入,包含子词信息(10 次训练轮次,window=5,min count=5,10 个负采样)。
  • 在词语相似性、词语类比、情感/文本分类,以及双语词汇诱导(BLI)等任务上评估嵌入。
  • 为 9 种语言构建 IndicNLP News Category Dataset,并使用 k-NN(k=4)结合平均词向量进行分类。
  • 训练无监督 Morpheme 分析器(Morfessor 2.0),评估形态学相关改进对印度语言 SMT 的影响。

实验结果

研究问题

  • RQ1IndicNLP 嵌入在内在任务与外在任务上是否优于公开基线(FT-W、FT-WC)?
  • RQ2单语言 IndicNLP 语料对词语相似性、类比、情感、文本分类和双语词汇诱导的影响如何?
  • RQ3IndicNLP 资源是否支持无监督形态分析并改善跨语言 SMT?
  • RQ4该语料库在构建多语言表征与下游 NLP 基准方面的实用性与价值如何?

主要发现

LangFT-WFT-WCINLP
pa94.2394.8796.79
bn97.0097.0797.86
or94.0095.9398.07
gu97.0597.5499.02
mr96.4497.0799.37
kn96.1396.5097.20
te98.4698.1798.79
ml90.0089.3392.50
ta95.9895.8197.01
Average95.4795.8197.40
  • IndicNLP 嵌입在多项任务上优于两个公开基线;平均词相似性(Pearson)跨语言提升至 0.519(INLP)对比 0.507(FT-W)和 0.497(FT-WC)。
  • 在词语类比(Hindi 子集)中,IndicNLP 准确率为 33.48% ,而 FT-W 为 19.76%、FT-WC 为 32.93%。
  • 在多样化公开数据集的文本分类任务中,IndicNLP 嵌入显示更高的准确率(平均 74.73%),对比 FT-W 的 69.25% 和 FT-WC 的 68.32%。
  • IndicNLP News Category Dataset 的结果在各语言上使用 INLP 嵌入时表现更高(例如 pa: 96.79, bn: 97.86, or: 98.07, gu: 99.02, mr: 99.37, te: 98.79, ta: 97.01 等,总体平均 97.40)。
  • 双语词汇诱导(BLI)使用 GeoMM 时 INLP 的平均准确率更高:en→Indic 36.55,Indic→en 44.94(对比 FT-W 25.98/33.20 与 FT-WC 32.88/44.94)。
  • 在 IndicNLP 上训练的无监督形态分析器在 SMT 的 BLEU 指标上优于基于词级的基线,并且在与早期形态分析器(K&B,2016)的对比中具备竞争力(平均 BLEU:word 22.84,morph 24.21,morph(K&B,2016) 24.57)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。