QUICK REVIEW

[论文解读] PMIndia -- A Collection of Parallel Corpora of Languages of India

Barry Haddow, Faheem Kirefu|arXiv (Cornell University)|Jan 27, 2020

Natural Language Processing Techniques参考文献 12被引用 68

一句话总结

PMIndia 引入一个公开可用的平行语料库，将13种印度语言与英语配对，源自 PM India 的新闻更新，包含对齐方法和初步的机器翻译（MT）结果。

ABSTRACT

Parallel text is required for building high-quality machine translation (MT) systems, as well as for other multilingual NLP applications. For many South Asian languages, such data is in short supply. In this paper, we described a new publicly available corpus (PMIndia) consisting of parallel sentences which pair 13 major languages of India with English. The corpus includes up to 56000 sentences for each language pair. We explain how the corpus was constructed, including an assessment of two different automatic sentence alignment methods, and present some initial NMT results on the corpus.

研究动机与目标

通过构建一个包含大量 English–language 对的语料库，解决印度语言平行语料稀缺的问题。
利用 PM India 的新闻更新，在 13 种印度语言之间创建多语言句子对齐。
使用多种方法评估对齐质量，并提供基线 NMT 结果以说明语料库的实用性。
提供一个在 CC-BY-4.0 下免费可访问的资源，以支持南亚语言的跨语言 NLP 研究。

提出的方法

使用自定义爬虫和 Alcazar 抓取 13 种语言和英文的 PMIndia 新闻更新，以提取文章主体。
使用扩展的 Moses 句子切分器对所有目标语言进行分句。
使用 hunalign 在可用时结合众包字典进行句子对齐，在可用 LASER 嵌入时使用 Vecalign；尽可能使用交集。
通过内在评价指标（ precision、recall、F1）和基于 KEOPS 的对 English–Tamil 子集的人类评估来评估对齐质量。
使用 Marian 在发布的语料库上训练 NMT 系统，采用子词单元（BPE 10000 次合并）和标准低资源 MT 超参数。
报告 English-to/from-language 对的 BLEU 分数，以对数据集的翻译质量进行基准评估。

实验结果

研究问题

RQ1是否可以从公开可访问的政府内容为印度的 13 种语言与英语构建一个大规模、公开可用的平行语料库？
RQ2在这种多语言、低资源环境下，不同自动句子对齐方法（hunalign、Vecalign）如何比较？
RQ3使用此语料库对英语–语言对及相反方向能达到的基线机器翻译性能（BLEU）是多少？
RQ4在所选语言对中，通过人类评估所评估的内在对齐质量如何？

主要发现

发布了一个 PMIndia 语料库，每个语言对最多含 56,000 句，源自英语–印度语言新闻更新。
Vecalign 通常与 hunalign 在多个语言对上约有 80% 一致性，对于英语–印地语的一致性更高。
内在的人类评估显示两种对齐工具交集的高准确性，79% 的有效对齐，以及在考虑非错误分词情况时 94% 的自由准确率。
NMT 实验表明翻译成印度语言（特别是达罗毗荼语系语言）时 BLEU 分数较低，而英语到印度语言方向相对较好；尽管数据量较小，英语–乌尔都语和英语–马尼普尔语显示相对较高的结果。
达罗毗荼语系及其他黏着语特征使翻译面临挑战，表明数据量不是导致低性能的唯一因素；领域和语言结构起着重要作用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。