[论文解读] Role of Morphology Injection in SMT: A Case Study from Indian Language Perspective
本文提出形态注入方法,以解决在印地语、马拉地语和马拉雅拉姆语等形态丰富的印度语言中,短语基于统计机器翻译(PBSMT)的训练数据稀疏问题。通过生成并注入未见的形态形式到训练语料中,该方法显著提升了翻译质量,在准确性和流畅性方面均实现了一个数量级的提升。
Phrase-based Statistical Machine Translation (PBSMT) is commonly used for automatic translation. However, PBSMT runs into difficulty when either or both of the source and target languages are morphologically rich. Factored models are found to be useful for such cases, as they consider word as a vector of factors. These factors can contain any information about the surface word and use it while translating. The objective of the current work is to handle morphological inflections in Hindi, Marathi, and Malayalam using Factored translation models when translating from English. Statistical MT approaches face the problem of data sparsity when translating to a morphologically rich language. It is very unlikely for a parallel corpus to contain all morphological forms of words. We propose a solution to generate these unseen morphological forms and inject them into the original training corpus. We propose a simple and effective solution based on enriching the input with various morphological forms of words. We observe that morphology injection improves the quality of translation in terms of both adequacy and fluency. We verify this with experiments on three morphologically rich languages when translating from English. From the detailed evaluations, we observed an order of magnitude improvement in translation quality.
研究动机与目标
- 解决从英语翻译到形态丰富的印度语言时,短语基于统计机器翻译(PBSMT)中的数据稀疏问题。
- 克服在印地语、马拉地语和马拉雅拉姆语等语言中,平行语料库里未见形态形式的挑战。
- 通过增强训练数据的形态信息,提升翻译在准确性和流畅性方面的质量。
- 评估增强注入形态形式的因子翻译模型的有效性。
提出的方法
- 利用语言学规则或形态分析器,生成源语言中未见的词语形态形式。
- 将这些生成的形式注入原始的单语和双语训练语料中,以丰富训练数据。
- 采用因子翻译模型,其中每个词表示为包含形态成分的因子向量。
- 使用增强后的训练数据重新训练PBSMT系统,以提升对罕见或未见屈折形式的泛化能力。
- 利用因子模型对子词成分的建模能力,提升对齐和翻译决策效果。
实验结果
研究问题
- RQ1将合成的形态形式注入训练数据后,对形态丰富的语言在PBSMT中的翻译质量有何影响?
- RQ2形态注入在多大程度上可减少从英语到印地语、马拉地语和马拉雅拉姆语翻译中的数据稀疏性?
- RQ3使用注入形态的因子模型是否能同时提升翻译的流畅性和准确性?
- RQ4形态注入对不同形态丰富的印度语言的相对影响如何?
主要发现
- 形态注入显著提升了翻译质量,在翻译性能上实现了数量级的提升。
- 该方法在印地语、马拉地语和马拉雅拉姆语中均显著提升了翻译的流畅性和准确性。
- 因子翻译模型从注入的形态形式中获益显著,有效缓解了数据稀疏的影响。
- 在所有三种测试的形态丰富的印度语言中,性能提升均具有一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。