QUICK REVIEW

[论文解读] Weakly Supervised Grammatical Error Correction using Iterative Decoding

Jared Lichtarge, Christopher Alberti|arXiv (Cornell University)|Oct 31, 2018

Natural Language Processing Techniques参考文献 14被引用 18

一句话总结

该论文提出了一种弱监督的句法错误修正（GEC）系统，采用在40亿token的Wikipedia修订历史数据上预训练的Transformer模型，这些数据本身具有噪声且并非为GEC任务精心筛选。该方法引入了一种迭代解码策略，在多轮迭代中逐步应用修正，显著提升了在CoNLL’14和JFLEG基准上的性能——在最终阶段未使用任何人工标注的GEC数据情况下，单模型达到F₀.₅为58.3，集成模型达到62.4 GLEU，性能达到当前最先进水平。

ABSTRACT

We describe an approach to Grammatical Error Correction (GEC) that is effective at making use of models trained on large amounts of weakly supervised bitext. We train the Transformer sequence-to-sequence model on 4B tokens of Wikipedia revisions and employ an iterative decoding strategy that is tailored to the loosely-supervised nature of the Wikipedia training corpus. Finetuning on the Lang-8 corpus and ensembling yields an F0.5 of 58.3 on the CoNLL'14 benchmark and a GLEU of 62.4 on JFLEG. The combination of weakly supervised training and iterative decoding obtains an F0.5 of 48.2 on CoNLL'14 even without using any labeled GEC data.

研究动机与目标

通过利用Wikipedia修订历史作为弱监督来源，缓解大规模人工标注GEC训练数据稀缺的问题。
通过引入迭代修正过程，克服在噪声且分布外的数据上训练的模型在单次解码中的局限性。
证明仅在Wikipedia编辑数据上预训练的模型，通过迭代解码即可实现强大的GEC性能，即使不进行微调。
通过使模型行为与人类编辑的渐进式编辑风格对齐，改善从Wikipedia到GEC任务的领域迁移。
仅使用弱监督和迭代解码，在CoNLL’14和JFLEG基准上实现最先进性能。

提出的方法

在41亿token的原始Wikipedia修订历史数据上预训练一个Transformer序列到序列模型，将每次编辑视为弱监督的源-目标样本对。
应用一种迭代解码算法，每一步执行束搜索（beam search），仅当重写结果的成本低于身份翻译成本的阈值时才接受该重写。
在每次迭代中，模型通过应用高置信度的修正对当前输入生成新句子，实现逐步优化。
采用基于阈值的过滤机制，确保仅接受有意义且低代价的重写，防止不必要或有害的修改。
在Lang-8 GEC语料库上微调预训练模型，并将四个此类模型进行集成以进一步提升性能。
集成语言建模和拼写检查组件，以增强最终输出的鲁棒性和流畅性。

实验结果

研究问题

RQ1在大规模、噪声的Wikipedia修订数据上预训练的Transformer模型，是否能在不使用任何人工标注GEC数据的情况下，实现具有竞争力的GEC性能？
RQ2当在弱监督、分布外的数据上训练时，与单次解码相比，迭代解码是否能显著提升GEC性能？
RQ3迭代解码在多大程度上可以缓解Wikipedia编辑与正式GEC任务之间的领域差距？
RQ4在弱监督预训练基础上结合迭代解码，微调Lang-8数据和模型集成对性能有何影响？
RQ5在仅基于Wikipedia编辑数据训练的模型能否泛化到CoNLL’14和JFLEG等GEC基准？其性能与先前SOTA方法相比如何？

主要发现

仅使用Wikipedia修订数据进行预训练和迭代解码，未在人工标注GEC数据上进行微调，该模型在CoNLL’14基准上实现了F₀.₅为48.2的性能。
在Lang-8上微调并结合迭代解码后，单模型在CoNLL’14上的F₀.₅达到58.3，创下单模型SOTA新纪录。
将四个微调后的模型与迭代解码结合，可在CoNLL’14上实现F₀.₅为58.3，在JFLEG上达到62.4 GLEU，实现SOTA性能。
与单次解码相比，迭代解码显著提升了性能，尤其在预训练模型上表现更为突出，后者原本性能较差。
仅在Wikipedia编辑数据上训练的模型会做出许多非句法但风格上有益的修改（如更简洁、更清晰），但这些修改在GEC任务中并不合适——凸显了通过微调进行领域适应的必要性。
在Lang-8上微调后，模型行为更趋保守，聚焦于语法修正，减少了编辑风格的改动，从而更符合GEC任务的目标。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。