Skip to main content
QUICK REVIEW

[论文解读] Reaching Human-level Performance in Automatic Grammatical Error Correction: An Empirical Study

Tao Ge, Furu Wei|arXiv (Cornell University)|Jul 3, 2018
Natural Language Processing Techniques参考文献 39被引用 97
一句话总结

这篇论文提出流畅度提升学习和流畅度提升推理,以提升卷积式 seq2seq GEC 模型,在 CoNLL-2014 和 JFLEG 基准上达到人类水平的性能。它还提出多轮与轮回纠错以逐步提高流畅度。

ABSTRACT

Neural sequence-to-sequence (seq2seq) approaches have proven to be successful in grammatical error correction (GEC). Based on the seq2seq framework, we propose a novel fluency boost learning and inference mechanism. Fluency boosting learning generates diverse error-corrected sentence pairs during training, enabling the error correction model to learn how to improve a sentence's fluency from more instances, while fluency boosting inference allows the model to correct a sentence incrementally with multiple inference steps. Combining fluency boost learning and inference with convolutional seq2seq models, our approach achieves the state-of-the-art performance: 75.72 (F_{0.5}) on CoNLL-2014 10 annotation dataset and 62.42 (GLEU) on JFLEG test set respectively, becoming the first GEC system that reaches human-level performance (72.58 for CoNLL and 62.37 for JFLEG) on both of the benchmarks.

研究动机与目标

  • 在有限标注数据的条件下,推动神经 GEC 的泛化能力提高。
  • 提出以流畅度为导向的数据增强,以生成多样化的训练样本。
  • 开发多轮与轮回推理,以逐步提升句子流畅度。
  • 利用原生英语数据来提升流畅度提升学习。
  • 展示在主要基准上达到或超越人类性能的最先进结果。

提出的方法

  • 基于语言模型的交叉熵定义流畅度分数,用以区分流畅与不流畅的句子(f(x) = 1/(1+H(x)))。
  • 引入流畅度提升学习,通过将流畅句子转换为不那么流畅但保持意义的形式来生成额外的训练对(back-boost、self-boost、dual-boost)。
  • 训练一个向后错误生成模型,为训练数据产生不流畅候选项(back-boost)。
  • 利用自我提升,其中 GEC 模型本身从其 n-best 输出中提出不流畅候选项(self-boost)。
  • 将 back-boost 与 self-boost 结合成 dual-boost 学习,以最大化多样化的不流畅候选项生成(并伴随模型动态更新)。
  • 用大规模原生数据(如英文维基百科)扩展流畅度提升学习,以增补训练集(S = S* ∪ C)。
  • 实现流畅度提升推理,以在每次编辑提升流畅度时允许多轮纠正(轮回纠正,使用从右到左与从左到右的解码器)。
  • 使用带注意力的卷积式 seq2seq 架构(7 层),采用 Nesterov 动量训练,并进行集成解码;在 CoNLL-2014(F0.5)和 JFLEG(GLEU)上进行评估。

实验结果

研究问题

  • RQ1以流畅度为焦点的数据增强是否能够提升 GEC 的泛化能力,超越原始纠错对?
  • RQ2多轮/增量式编辑(流畅度提升推理)是否在初次编辑后进一步提升纠错效果?
  • RQ3双提升策略(back-与self-boost)是否比单一提升方法产生更丰富、更有用的训练信号?
  • RQ4在不改变语义的前提下,结合大规模原生数据是否能够进一步提升 GEC 的性能?
  • RQ5在轮回纠正中,从右到左与从左到右的解码器是否互补,以提高对不同错误类型的召回率?

主要发现

  • 所提出的方法在 CoNLL-2014 10-annotation 数据集上达到 75.72 F0.5,在 JFLEG 上达到 62.42 GLEU,两者均达到人类水平的表现。
  • 流畅度提升学习提升了基础卷积式 seq2seq 模型在精确率、召回率、F0.5 和 GLEU 等指标上的表现。
  • 流畅度提升推理提高召回率(例如 CoNLL-2014 36.30→40.18;CoNLL-10 50.31→53.15),在精确度上存在权衡,导致 F0.5 结果喜忧参半,但提升了 JFLEG 的流畅度。
  • 轮回纠正(先从右到左再从左到右)在若干错误类型上提升了召回率,验证了解码顺序的互补性。
  • 具备流畅度提升学习的模型(尤其是同时具备学习与推理的模型)超过了若干先前的 GEC 系统,甚至在目标指标上接近或超过人类水平。
  • 使用大规模原生数据进行训练进一步提升流畅度与泛化能力,使纠错更加稳健。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。