QUICK REVIEW

[论文解读] The IIT Bombay English-Hindi Parallel Corpus

Anoop Kunchukuttan, Pratik Mehta|arXiv (Cornell University)|Oct 8, 2017

Natural Language Processing Techniques参考文献 14被引用 33

一句话总结

本文介绍了IIT Bombay英语-印地语平行语料库，这是目前公开可用的最大的英语-印地语机器翻译平行语料库，包含149万组平行语段，其中包括69.4万条此前未公开的语段。该语料库支持短语基于SMT和神经机器翻译（NMT），基线BLEU得分分别为12.23（EN→HI）和12.83（HI→EN），并可在知识共享许可下免费用于非商业研究。

ABSTRACT

We present the IIT Bombay English-Hindi Parallel Corpus. The corpus is a compilation of parallel corpora previously available in the public domain as well as new parallel corpora we collected. The corpus contains 1.49 million parallel segments, of which 694k segments were not previously available in the public domain. The corpus has been pre-processed for machine translation, and we report baseline phrase-based SMT and NMT translation results on this corpus. This corpus has been used in two editions of shared tasks at the Workshop on Asian Language Translation (2016 and 2017). The corpus is freely available for non-commercial research. To the best of our knowledge, this is the largest publicly available English-Hindi parallel corpus.

研究动机与目标

整合并扩展此前规模和范围有限的公开英语-印地语平行语料库。
通过实现高质量的英语与印地语之间的机器翻译，应对印地语数字通信日益增长的需求。
提供一个全面、预处理且可免费获取的平行语料库，用于训练和基准测试机器翻译系统。
支持亚洲语言翻译的共享任务，并提升印度语言的低资源语言翻译性能。
通过政府网站和回译等合成数据技术，为未来改进奠定基础。

提出的方法

该语料库从17个来源收集，包括OPUS、WMT、TED演讲，以及从印度政府网站、司法文件和多语言词典中新收集的数据。
通过爬取Mahashabdkosh词典、从印度政府门户网站手动收集，以及使用结合长度和词对应关系的混合模型对Gyaan-Nidhi可比语料库进行句子对齐，创建了新的子语料库。
使用Moses对英语进行分词，使用IndicNLP对印地语进行分词，确保与标准机器翻译工具包的兼容性。
使用Moses训练短语基于SMT系统，采用grow-diag-final-and短语抽取、词性化重排序和MIRA调优，并使用Kneser-Ney五元语言模型。
神经机器翻译系统采用基于注意力的编码器-解码器架构，包含512个GRU单元、256维嵌入向量，以及BPE子词分词（15,500次合并），每种语言分别训练。
模型训练使用Adam优化，早停策略，束搜索解码（束宽12），并通过四个保存模型的集成解码提升鲁棒性。

实验结果

研究问题

RQ1将多样化、领域特定的平行语料库组合使用，对英语-印地语机器翻译系统性能有何影响？
RQ2与现有公开资源相比，包含新收集的非公开语料库是否能显著提升翻译质量？
RQ3在新编译的英语-印地语平行语料库上，短语基于和神经机器翻译的基线性能指标是什么？
RQ4在翻译性能和模型泛化方面，使用领域特定的、形态丰富的语言（如印地语）在多大程度上构成挑战？
RQ5在Gyaan-Nidhi等可比语料库（非平行语料）上进行句子对齐，对于生成可用的平行训练数据有多大的有效性？

主要发现

IIT Bombay英语-印地语平行语料库包含1,492,827组平行语段，其中694,000组为新贡献语段，此前未在公共领域中出现。
该语料库在2016年和2017年两届亚洲语言翻译研讨会中被使用，确立了其作为基准资源的地位。
基线短语基于SMT在英语到印地语翻译中达到11.75的BLEU得分，在印地语到英语翻译中达到14.49的BLEU得分。
神经机器翻译模型在英语到印地语翻译中达到12.23的BLEU得分，在印地语到英语翻译中达到12.83的BLEU得分，后者优于SMT。
该语料库依据知识共享署名-非商业性使用-相同方式共享4.0国际许可发布，支持非商业研究和再利用。
使用METEOR-Indic（通过IndoWordNet和基于tries的词干提取器支持印地语的同义词和词干匹配）显著提升了对形态丰富的印度语言的评估相关性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。