Skip to main content
QUICK REVIEW

[论文解读] deltaBLEU: A Discriminative Metric for Generation Tasks with Intrinsically Diverse Targets

Michel Galley, Chris Brockett|arXiv (Cornell University)|Jun 23, 2015
Natural Language Processing Techniques参考文献 14被引用 93
一句话总结

本文提出了 deltaBLEU(ΔBleu),一种判别性指标,通过整合人类标注的多个参考回复的质量评分,以改进具有多样化输出的文本生成任务的自动评估。通过根据人类判断对参考文本进行加权,ΔBleu 在对话式回复生成任务中与人类评估的相关性显著优于标准 BLEU 和句级 BLEU,使用所有参考文本时,斯皮尔曼等级相关系数 ρ 达到 0.484,肯德尔和谐系数 τ 达到 0.342。

ABSTRACT

We introduce Discriminative BLEU (deltaBLEU), a novel metric for intrinsic evaluation of generated text in tasks that admit a diverse range of possible outputs. Reference strings are scored for quality by human raters on a scale of [-1, +1] to weight multi-reference BLEU. In tasks involving generation of conversational responses, deltaBLEU correlates reasonably with human judgments and outperforms sentence-level and IBM BLEU in terms of both Spearman's rho and Kendall's tau.

研究动机与目标

  • 为解决具有内在多样化输出的文本生成任务的评估挑战,其中单一参考文本不足以反映质量差异,且标准指标如 BLEU 无法捕捉质量变化。
  • 通过将人类判断直接嵌入自动化指标中,减少模型开发过程中对重复人工评估的依赖。
  • 提升对话式回复生成任务中自动指标与人类判断之间的相关性,该任务具有较高的语义多样性与主观质量特征。
  • 开发一种可扩展、可重用的评估框架,适用于对话系统以外的任务,包括摘要生成、改写生成和图像字幕生成。

提出的方法

  • 该方法提出了一种多参考 BLEU 的加权版本,其中每个参考文本被赋予一个范围在 -1 到 +1 之间的、由人类标注的质量评分。
  • 该指标通过取假设句与每个参考句之间 n-gram 重叠的最大值,并根据参考句的人类质量评分进行加权,来计算 n-gram 精确率。
  • 最终的 ΔBleu 分数是 n-gram 精确率的加权几何平均值,权重来源于在 [-1, +1] 尺度上的人类评分。
  • 该方法采用与标准 BLEU 类似的简短惩罚(BP),但将其应用于加权精确率分数,以保持归一化。
  • 该方法在包含每个输入对应多个参考句的对话式回复生成数据集上进行评估,每个参考句均由人工标注者评分。
  • 使用斯皮尔曼等级相关系数 ρ 和肯德尔和谐系数 τ 作为与人类判断的相关性度量,将该指标与标准 BLEU 和句级 BLEU 进行对比。

实验结果

研究问题

  • RQ1一种结合多个参考句人类标注质量评分的指标,是否能提升在具有多样化输出的文本生成任务中与人类判断的相关性?
  • RQ2在对话式回复生成任务中,ΔBleu 与标准 BLEU 和句级 BLEU 相比,其与人类评估的相关性如何?
  • RQ3包含低质量参考句(负分)是否会提升或降低该指标的性能?
  • RQ4该指标能否推广至其他文本生成任务,如改写生成、摘要生成和图像字幕生成?

主要发现

  • 当使用所有参考句时,ΔBleu 的斯皮尔曼等级相关系数 ρ 为 0.484,肯德尔和谐系数 τ 为 0.342,显著优于标准 BLEU(ρ = 0.318,τ = 0.212)和句级 BLEU(ρ = 0.258,τ = 0.167)。
  • ΔBleu 最佳配置(使用所有参考句)与人类判断的相关性具有 95% 置信区间 (0.415, 0.546) 的斯皮尔曼 ρ,该区间与标准 BLEU 的置信区间几乎不重叠。
  • 在包含人类评分较低的参考句时,ΔBleu 表现仍有所提升,表明该指标能有效利用即使是低分参考句的质量信息。
  • 当使用所有参考句(包括低质量参考句)时,标准 BLEU 的相关性下降,而 ΔBleu 的相关性反而上升,证明其具备区分参考句质量的能力。
  • 该指标在不同参考句选择阈值下均保持强劲性能,当仅使用评分 ≥0.6 的参考句时,ΔBleu 的 ρ 为 0.405,τ 为 0.281。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。