QUICK REVIEW

[论文解读] Improved statistical machine translation using monolingual paraphrases

Preslav Nakov|arXiv (Cornell University)|Sep 25, 2021

Natural Language Processing Techniques参考文献 23被引用 38

一句话总结

这篇论文提出一种单语改写方法，通过生成 NP/NC 结构的意义保持句子改写来扩充 SMT 的英文训练数据，并与现有译文配对，在数据有限时尤其能提升翻译质量。

ABSTRACT

We propose a novel monolingual sentence paraphrasing method for augmenting the training data for statistical machine translation systems "for free" -- by creating it from data that is already available rather than having to create more aligned data. Starting with a syntactic tree, we recursively generate new sentence variants where noun compounds are paraphrased using suitable prepositions, and vice-versa -- preposition-containing noun phrases are turned into noun compounds. The evaluation shows an improvement equivalent to 33%-50% of that of doubling the amount of training data.

研究动机与目标

通过使用单语改写来扩展训练数据，而不是收集新的对齐语料库，来推动 SMT 的改进。
开发一种聚焦于名词复合结构与名词短语的句法改写方法，以生成改写变体。
证明改写增强的训练在BLEU上取得显著提升，尤其是在小型数据集下。
在 Europarl English-Spanish 和 News Commentary 领域数据上评估该方法，以评估鲁棒性和领域自适应性。

提出的方法

使用句法分析器对源句进行解析，并递归应用将 NP/NC 结构转换的变换（例如 NP NP1 P NP2 转换为 NP NP2 NP1，NP NP1 of NP2 转换为 NP NP2 gen NP1）。
使用额外的约束来避免尴尬的名词短语并确定可行的改写形式。
通过在上下文中生成和测试改写变体（前后词）并使用 Google 命中模式进行基于网络的频率检查来验证改写。
用这些改写与原始外文译文配对来扩充训练语料库的英文端，并在扩充数据上训练 SMT 模型。
可选地对短语表中的短语进行改写，并将改写后的短语表与原始短语表合并，优先保留原始条目。
使用 Bleu 和 n-gram 精度进行评估，比较基线、句子改写、短语表改写以及组合系统。

实验结果

研究问题

RQ1在不增加对齐数据的情况下，源端的单语改写是否能提升 SMT 的性能？
RQ2改写句子与改写短语表对翻译质量的影响有何不同？
RQ3将改写后的数据与原始语料合并是否比单独改写对覆盖率和 Bleu 分数有更大提升？
RQ4将方法从 Europarl 转移到 News Commentary 时，对领域自适应是否有效？
RQ5针对 SMT 的单语改写有哪些实际局限性和误差来源？

主要发现

改写增强的训练在 Bleu 上的提升相当于将训练数据翻倍所能达到的 33%–50%。
对训练句子进行改写后再将其短语表与原始短语表合并，在测试配置中带来最强的改进。
仅改写短语表并不能超过句子改写的方法，且可能引入噪声。
基于改写的领域自适应，附加一个来自 Europarl 的短语表，相较基线在 News Commentary 上提供了显著的 Bleu 增益。
该方法与多语言枢轴式改写方法互为补充，可以与它们集成以实现额外的增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。