Skip to main content
QUICK REVIEW

[论文解读] MAUVE: Human-Machine Divergence Curves for Evaluating Open-Ended Text Generation.

Krishna Pillutla, Swabha Swayamdipta|arXiv (Cornell University)|Feb 2, 2021
Topic Modeling参考文献 17被引用 2
一句话总结

MAUVE 是一种用于评估开放式文本生成的新度量方法,通过测量机器生成文本与人类书写文本分布之间差异曲线下的平均面积来量化其差异。与以往度量相比,该方法更具原则性,能够捕捉覆盖率与质量之间的权衡,更符合人类判断及模型规模趋势。

ABSTRACT

Despite major advances in open-ended text generation, there has been limited progress in designing evaluation metrics for this task. We propose MAUVE -- a metric for open-ended text generation, which directly compares the distribution of machine-generated text to that of human language. MAUVE measures the mean area under the divergence curve for the two distributions, exploring the trade-off between two types of errors: those arising from parts of the human distribution that the model distribution approximates well, and those it does not. We present experiments across two open-ended generation tasks in the web text domain and the story domain, and a variety of decoding algorithms and model sizes. Our results show that evaluation under MAUVE indeed reflects the more natural behavior with respect to model size, compared to prior metrics. MAUVE's ordering of the decoding algorithms also agrees with that of generation perplexity, the most widely used metric in open-ended text generation; however, MAUVE presents a more principled evaluation metric for the task as it considers both model and human text.

研究动机与目标

  • 为解决开放式文本生成缺乏原则性评估度量的问题。
  • 开发一种直接比较机器生成文本分布与人类语言分布的度量方法。
  • 捕捉覆盖率(模型捕捉人类语言多样性)与质量(模型避免低质量输出)之间的权衡。
  • 提供一种能反映不同模型规模与解码策略下自然模型行为的度量方法。
  • 为开放式生成任务提供比困惑度及其他现有度量更可靠的选择。

提出的方法

  • MAUVE 计算机器生成文本分布与人类参考文本分布之间差异曲线下的平均面积。
  • 其使用一条差异曲线,用于评估模型良好近似的人类分布部分与近似较差的部分之间的权衡。
  • 该度量基于使用学习或估计的分布模型,比较生成文本与人类文本的概率密度。
  • 该方法适用于网络文本和故事生成任务,涵盖多种解码算法与模型规模。
  • 通过分析整个分布差异,而非仅关注词元级相似性,将覆盖率与质量两方面整合在一起。
  • MAUVE 设计为对不同模型架构与解码策略具有鲁棒性,能够反映真实世界中的生成行为。

实验结果

研究问题

  • RQ1MAUVE 与困惑度等现有度量在评估开放式文本生成方面相比如何?
  • RQ2MAUVE 是否反映了随着模型规模增大而预期的模型性能变化趋势?
  • RQ3与人类判断或困惑度相比,MAUVE 对不同解码策略的排序效果如何?
  • RQ4MAUVE 在多大程度上捕捉了生成文本中覆盖率与质量之间的权衡?
  • RQ5MAUVE 是否可作为比当前标准更具原则性与可靠性的评估度量?

主要发现

  • MAUVE 展现出与模型规模变化趋势一致的更自然的模型性能排序,符合人类预期。
  • 该度量对解码算法的排序与困惑度一致,验证了其与广泛使用度量的一致性。
  • MAUVE 同时捕捉了覆盖率与质量之间的权衡,提供了比仅关注 n-gram 重叠或似然度的度量更全面的评估。
  • MAUVE 对生成文本中分布变化的敏感性更高,尤其是在不同解码策略之间表现更优。
  • 该度量能有效区分生成流畅但重复的文本与生成多样、类人输出的模型。
  • MAUVE 提供了一种基于分布的、具有原则性的评估方法,相较于以往度量更能反映人类语言特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。