[论文解读] Why Comparing Single Performance Scores Does Not Allow to Draw Conclusions About Machine Learning Approaches
本文表明,对非确定性机器学习模型(如神经网络)的单个性能分数进行比较,由于随机权重初始化带来的高假阳性率,会导致关于模型优越性的不可靠结论。作者提出应通过多次运行的得分分布而非单个模型来评估学习方法,表明即使在相同模型下,标准评估协议中仍有22–26%的时间会得出具有统计显著性的性能差异。
Developing state-of-the-art approaches for specific tasks is a major driving force in our research community. Depending on the prestige of the task, publishing it can come along with a lot of visibility. The question arises how reliable are our evaluation methodologies to compare approaches? One common methodology to identify the state-of-the-art is to partition data into a train, a development and a test set. Researchers can train and tune their approach on some part of the dataset and then select the model that worked best on the development set for a final evaluation on unseen test data. Test scores from different approaches are compared, and performance differences are tested for statistical significance. In this publication, we show that there is a high risk that a statistical significance in this type of evaluation is not due to a superior learning approach. Instead, there is a high risk that the difference is due to chance. For example for the CoNLL 2003 NER dataset we observed in up to 26% of the cases type I errors (false positives) with a threshold of p < 0.05, i.e., falsely concluding a statistically significant difference between two identical approaches. We prove that this evaluation setup is unsuitable to compare learning approaches. We formalize alternative evaluation setups based on score distributions.
研究动机与目标
- 调查标准机器学习评估协议在比较不同模型的单个性能分数时的可靠性。
- 证明模型之间统计显著的性能差异通常源于随机偶然性,而非学习方法的实际优越性。
- 挑战在共享任务和出版物中仅选择并报告单次运行中表现最佳模型的常见做法。
- 提出一种基于得分分布的新评估范式,以实现学习方法之间的有效比较。
- 量化标准评估设置中的第一类错误率,并表明其超过名义显著性水平(例如 p < 0.05),这是由于模型方差所致。
提出的方法
- 使用不同的随机种子多次训练相同的神经网络架构,以生成同一学习方法的多个模型。
- 在相同的保留测试集上评估每个模型,以收集每个方法的性能得分分布(例如 F1 分数)。
- 使用考虑完整得分分布而非单一得分的统计检验方法,比较两种学习方法的得分分布。
- 形式化两种替代评估标准:(1) 在正态分布假设下比较期望得分;(2) 比较一种方法产生更优模型的概率。
- 使用配对自举重采样估计性能差异的抽样分布,并计算跨运行平均得分绝对差异的第95百分位数。
- 在共享任务中报告多次运行的测试得分均值和标准差,而非单个模型得分。
实验结果
研究问题
- RQ1在固定测试集上,随机权重初始化在相同神经网络模型之间导致统计显著性能差异的程度如何?
- RQ2开发集的大小如何影响测试得分的方差以及标准评估协议中模型选择的可靠性?
- RQ3在标准显著性检验中,基于单个模型得分比较两个相同学习方法时的实际第一类错误率是多少?
- RQ4多次运行的得分分布是否能为比较学习方法提供比单个模型性能得分更可靠的依据?
- RQ5在共享任务中,为实现所需显著性水平(例如 p < 0.05)的可靠比较,最少需要多少次模型运行?
主要发现
- 在 CoNLL 2003 NER 数据集上,高达 26% 的相同神经网络模型之间的比较产生了统计显著差异(p < 0.05),表明假阳性率很高。
- 在 CoNLL 2003 NER-En 任务中,10 次运行的平均测试得分绝对差异的第95百分位数为 0.26 个百分点的 F1 分数,表明即使在适度重复的情况下也存在显著方差。
- 在 ACE 2005 Events 数据集上,10 次运行的平均得分绝对差异的第95百分位数为 1.39 个百分点的 F1 分数,凸显了运行间性能的高方差。
- 基于单个模型得分的显著性检验中,第一类错误率与名义 p 值(例如 p < 0.05 时为 5%)一致,表明显著性检验本身有效,但由此得出的结论不可靠。
- 开发集对测试得分方差有重大影响;不恰当或过小的开发集可能导致同一学习方法的测试性能出现任意大的差异。
- 在共享任务中,仅提交单个模型会导致不可靠的结论;作者建议每支团队至少提交 6 个模型,并报告均值和标准差,以支持得分分布的有效比较。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。