[论文解读] Referenceless Quality Estimation for Natural Language Generation
该论文提出了一种基于循环神经网络的无参考自然语言生成质量评估方法,通过将系统输出与源意义表示进行比较来预测输出质量,其性能与基于参考的评估方法相当,并且在使用合成数据时相关性提升了21%。
Traditional automatic evaluation measures for natural language generation (NLG) use costly human-authored references to estimate the quality of a system output. In this paper, we propose a referenceless quality estimation (QE) approach based on recurrent neural networks, which predicts a quality score for a NLG system output by comparing it to the source meaning representation only. Our method outperforms traditional metrics and a constant baseline in most respects; we also show that synthetic data helps to increase correlation results by 21% compared to the base system. Our results are comparable to results obtained in similar QE tasks despite the more challenging setting.
研究动机与目标
- 解决在自动NLG评估中需要人工标注参考文本所带来的高成本和不切实际的问题。
- 开发一种仅依赖源意义表示而非参考输出的质量评估框架。
- 在缺乏参考文本的情况下,特别是低资源或参考稀缺的场景中,提升与人类判断的相关性。
- 探究合成数据在提升无参考质量评估模型性能方面的有效性。
提出的方法
- 训练一个循环神经网络,通过编码系统输出和源意义表示来预测质量分数。
- 使用序列到序列架构来建模源意义表示与生成输出之间的关系。
- 使用人工标注的质量分数作为监督信号,端到端训练模型,无需参考输出。
- 通过引入合成样本增强训练数据,以提升模型的泛化能力和与人类判断的相关性。
- 采用注意力机制,将意义表示的相关部分与生成输出中的对应片段对齐。
- 使用回归损失函数优化模型,以最小化预测分数与人工标注质量分数之间的差异。
实验结果
研究问题
- RQ1无参考质量评估模型是否能在NLG评估中达到与基于参考的方法相当的性能?
- RQ2仅使用源意义表示而非参考输出,对模型性能的影响有多大?
- RQ3合成数据在提升预测分数与人工标注质量分数之间相关性方面的有效性如何?
- RQ4所提出的基于RNN的方法在不同NLG任务和领域中是否具有良好的泛化能力?
主要发现
- 所提出的无参考质量评估模型在大多数评估设置中优于传统自动指标和恒定基线。
- 与基础系统相比,使用合成数据增强后,模型的相关性提升了21%。
- 尽管没有使用参考输出,模型的性能仍与使用参考的类似质量评估任务相当。
- 使用合成数据显著增强了模型的泛化能力,并使其预测分数更贴近人类判断。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。