[论文解读] BARTScore: Evaluating Generated Text as Text Generation
BARTScore 将对生成文本的评估视为文本生成任务,使用预训练的 seq2seq 模型(BART),通过跨多方向和多视角的条件生成概率对假设进行评分,在多种设置中通常优于现有指标。
A wide variety of NLP applications, such as machine translation, summarization, and dialog, involve text generation. One major challenge for these applications is how to evaluate whether such generated texts are actually fluent, accurate, or effective. In this work, we conceptualize the evaluation of generated text as a text generation problem, modeled using pre-trained sequence-to-sequence models. The general idea is that models trained to convert the generated text to/from a reference output or the source text will achieve higher scores when the generated text is better. We operationalize this idea using BART, an encoder-decoder based pre-trained model, and propose a metric BARTScore with a number of variants that can be flexibly applied in an unsupervised fashion to evaluation of text from different perspectives (e.g. informativeness, fluency, or factuality). BARTScore is conceptually simple and empirically effective. It can outperform existing top-scoring metrics in 16 of 22 test settings, covering evaluation of 16 datasets (e.g., machine translation, text summarization) and 7 different perspectives (e.g., informativeness, factuality). Code to calculate BARTScore is available at https://github.com/neulab/BARTScore, and we have released an interactive leaderboard for meta-evaluation at http://explainaboard.nlpedia.ai/leaderboard/task-meval/ on the ExplainaBoard platform, which allows us to interactively understand the strengths, weaknesses, and complementarity of each metric.
研究动机与目标
- 通过生成概率来评价生成文本,以更好地与预训练目标保持一致。
- 开发 BARTScore 的变体以评估多种评估视角(例如信息性、事实性、流畅性)
- 证明 BARTScore 在机器翻译、摘要和数据到文本数据集上与人类评估具有强相关性。
- 研究提示词和任务特定微调对指标性能的影响。
提出的方法
- 将 BARTScore 定义为在给定源文本或参考文本的情况下目标文本的加权对数概率:BARTScore = sum_t w_t log p(y_t | y_<t, x, theta)。
- 提供四个评估方向:s→h(忠实性)、r→h(精确性)、h→r(召回率),以及来自 r↔h 的语义重叠的综合 F 值。
- 引入变体:vanilla BARTScore、BARTScore-CNN(摘要微调)、BARTScore-CNN-Para(先摘要再改写的微调)、以及 BARTScore-Prompt(基于提示的输入/输出)。
- 通过在输入/输出中添加简短短语来进行提示并对提示进行集成以提高稳定性。
- 探索在摘要(CNNDM)和改写(ParaBank2)上的下游微调,以使预训练与评估任务保持一致。
- 在比较指标时使用自举法进行显著性检验。
实验结果
研究问题
- RQ1BARTScore 是否能在机器翻译、摘要和数据到文本任务中与人类判断保持可靠的相关性?
- RQ2提示词和面向任务的微调是否能提高 BARTScore 与人类判断的相关性?
- RQ3与现有指标相比,BARTScore 在信息性、事实性、连贯性和流畅性等视角上的表现如何?
- RQ4在评估高质量与较低质量生成文本时,BARTScore 的鲁棒性和偏差特征是什么?
主要发现
- 带有任务对齐微调的 BARTScore 变体在若干语言对和任务上显著提升相关性。
- 添加提示(例如像“Such as”这样的短语)可提升机器翻译的相关性,体现提示增强评估的价值。
- 在 CNNDM 上进行微调可提升摘要的表现,在一定程度上也提升数据到文本任务,而以改写为重点的微调在某些情景下可能带来负面影响。
- 提示集合在基于语义重叠的视角(信息性、金字塔/覆盖度)上持续提升,但对事实性影响则喜忧参半。
- BARTScore 通常对参考长度和高质量输出具有鲁棒性,尽管在某些摘要数据集中区分提取式系统的效果较弱。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。