[论文解读] BERTScore: Evaluating Text Generation with BERT
BERTScore 通过比较分词级上下文嵌入(通过 BERT 等模型)并使用贪心的分词匹配来计算精确度、召回率和 F1,从而评估生成文本,其与人类判断的相关性通常优于传统的 n-gram 指标,并且对对抗性改述具有鲁棒性。在多种系统的机器翻译和图像标题生成任务中对其进行了演示。
We propose BERTScore, an automatic evaluation metric for text generation. Analogously to common metrics, BERTScore computes a similarity score for each token in the candidate sentence with each token in the reference sentence. However, instead of exact matches, we compute token similarity using contextual embeddings. We evaluate using the outputs of 363 machine translation and image captioning systems. BERTScore correlates better with human judgments and provides stronger model selection performance than existing metrics. Finally, we use an adversarial paraphrase detection task to show that BERTScore is more robust to challenging examples when compared to existing metrics.
研究动机与目标
- 激励对文本生成进行超越表面形式相似性的自动评估。
- 提出一个使用预训练上下文嵌入的分词级、上下文感知的相似性度量。
- 在机器翻译和图像标题生成上评估 BERTScore,以评估其与人类判断的相关性以及模型选择能力。
- 研究 idf 加权和不同上下文模型对性能的影响。
- 提供关于该指标的实际使用与鲁棒性的指南。
提出的方法
- 用来自预训练模型的上下文嵌入来表示分词(主要是 BERT,另有 RoBERTa、XLNet、XLM 等变体)。
- 计算成对分词的余弦相似度,并使用贪心匹配来形成召回和精确度分量。
- 将精确度和召回率结合成 F1 分数,作为 BERTScore。
- 可选地对分词应用基于 idf 的加权,以强调信息量大的词。
- 使用从随机 Common Crawl 句对计算的基线 b 对分数进行重新缩放,以在不影响排序的前提下提高可读性。
- 在机器翻译(WMT18)和图像标题生成(COCO)上进行评估,比较标准基线并进行模型选择实验。
实验结果
研究问题
- RQ1在 MT 和图像标题生成中,BERTScore 在系统层面和片段层面对人类判断的相关性有多高?
- RQ2基于上下文嵌入的分词匹配是否相对于 n-gram 和嵌入基线具有优势?
- RQ3idf 加权和不同上下文模型对 BERTScore 性能的影响是什么?
- RQ4BERTScore 是否可被有效用于 MT 任务中的模型选择和排序?
- RQ5与其他指标相比,BERTScore 对对抗性改述示例有多鲁棒?
主要发现
- BERTScore 与人类判断具有较高相关性,且在多种 MT 语言对和方向上通常优于 Bleu 等传统指标及其他基线。
- 基于 F1 的 BERTScore 通常在各种设置下提供可靠表现,成为推荐的默认选择。
- idf 加权在某些场景下带来适度提升,但收益随领域和语言而异;总体而言,建议跳过或有选择地应用加权。
- BERTScore 在 WMT18 混合系统实验中展示出强劲的模型选择性能,常在指标中排名靠前。
- 在图像标题生成中,BERTScore 优于任务无关指标,并在表面形式指标失灵的情况下保持鲁棒性,idf 展现显著收益。
- 针对对抗性改述数据集 PAWS QQP 的鲁棒性分析表明,BERTScore 的降级程度低于其他指标,显示出更强的韧性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。