QUICK REVIEW
[论文解读] Improved statistical machine translation using monolingual paraphrases
Preslav Nakov|arXiv (Cornell University)|Sep 25, 2021
Natural Language Processing Techniques参考文献 23被引用 38
一句话总结
这篇论文提出一种单语改写方法,通过生成 NP/NC 结构的意义保持句子改写来扩充 SMT 的英文训练数据,并与现有译文配对,在数据有限时尤其能提升翻译质量。
ABSTRACT
We propose a novel monolingual sentence paraphrasing method for augmenting the training data for statistical machine translation systems "for free" -- by creating it from data that is already available rather than having to create more aligned data. Starting with a syntactic tree, we recursively generate new sentence variants where noun compounds are paraphrased using suitable prepositions, and vice-versa -- preposition-containing noun phrases are turned into noun compounds. The evaluation shows an improvement equivalent to 33%-50% of that of doubling the amount of training data.
研究动机与目标
- 通过使用单语改写来扩展训练数据,而不是收集新的对齐语料库,来推动 SMT 的改进。
- 开发一种聚焦于名词复合结构与名词短语的句法改写方法,以生成改写变体。
- 证明改写增强的训练在BLEU上取得显著提升,尤其是在小型数据集下。
- 在 Europarl English-Spanish 和 News Commentary 领域数据上评估该方法,以评估鲁棒性和领域自适应性。
提出的方法
- 使用句法分析器对源句进行解析,并递归应用将 NP/NC 结构转换的变换(例如 NP NP1 P NP2 转换为 NP NP2 NP1,NP NP1 of NP2 转换为 NP NP2 gen NP1)。
- 使用额外的约束来避免尴尬的名词短语并确定可行的改写形式。
- 通过在上下文中生成和测试改写变体(前后词)并使用 Google 命中模式进行基于网络的频率检查来验证改写。
- 用这些改写与原始外文译文配对来扩充训练语料库的英文端,并在扩充数据上训练 SMT 模型。
- 可选地对短语表中的短语进行改写,并将改写后的短语表与原始短语表合并,优先保留原始条目。
- 使用 Bleu 和 n-gram 精度进行评估,比较基线、句子改写、短语表改写以及组合系统。
实验结果
研究问题
- RQ1在不增加对齐数据的情况下,源端的单语改写是否能提升 SMT 的性能?
- RQ2改写句子与改写短语表对翻译质量的影响有何不同?
- RQ3将改写后的数据与原始语料合并是否比单独改写对覆盖率和 Bleu 分数有更大提升?
- RQ4将方法从 Europarl 转移到 News Commentary 时,对领域自适应是否有效?
- RQ5针对 SMT 的单语改写有哪些实际局限性和误差来源?
主要发现
- 改写增强的训练在 Bleu 上的提升相当于将训练数据翻倍所能达到的 33%–50%。
- 对训练句子进行改写后再将其短语表与原始短语表合并,在测试配置中带来最强的改进。
- 仅改写短语表并不能超过句子改写的方法,且可能引入噪声。
- 基于改写的领域自适应,附加一个来自 Europarl 的短语表,相较基线在 News Commentary 上提供了显著的 Bleu 增益。
- 该方法与多语言枢轴式改写方法互为补充,可以与它们集成以实现额外的增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。