QUICK REVIEW

[论文解读] Time for a change: a tutorial for comparing multiple classifiers through Bayesian analysis

Alessio Benavoli, Giorgio Corani|arXiv (Cornell University)|Jun 14, 2016

Neural Networks and Applications被引用 278

一句话总结

这篇论文主张放弃 NHST 来比较分类器，并采用贝叶斯估计，特别是带有 rope 的贝叶斯相关 t 检验，以量化跨多个数据集的差异和等效性的概率。

ABSTRACT

The machine learning community adopted the use of null hypothesis significance testing (NHST) in order to ensure the statistical validity of results. Many scientific fields however realized the shortcomings of frequentist reasoning and in the most radical cases even banned its use in publications. We should do the same: just as we have embraced the Bayesian paradigm in the development of new machine learning methods, so we should also use it in the analysis of our own results. We argue for abandonment of NHST by exposing its fallacies and, more importantly, offer better - more sound and useful - alternatives for it.

研究动机与目标

在机器学习分类器评估中放弃 NHST，转而采用贝叶斯分析。
提出一个贝叶斯框架，用于在多个数据集上比较分类器，并正确处理交叉验证的依赖性。
引入贝叶斯相关 t 检验及实际等效区间（rope）的概念，以评估实际意义和不确定性。

提出的方法

将交叉验证差异建模为带有指定相关参数 ρ 的相关正态向量，以解释训练/测试重叠。
使用 Normal-Gamma 先验来推导均值差 μ 的学生后验分布，在特定先验选择下，与频率学相关 t 检验相匹配。
采用 rope 来定义实际等价，并计算后验概率以 (a) nbc 更好、(b) 等价、(c) aode 更好。
计算后验高密度区间（HDI）以量化不确定性和效应的大小。
提供一个框架，直接从后验概率做出自动决策，而无需依赖 p 值。

实验结果

研究问题

RQ1贝叶斯分析如何量化一个分类器在跨多个数据集上优于另一个的概率？
RQ2将交叉验证相关性 ρ 纳入后，对分类器性能均值差异的推断有何影响？
RQ3我们能否有意义地定义和衡量分类器之间的实际等价（rope），以及等价或差异的后验概率？
RQ4贝叶斯后验总结（如 HDI）在传达效应大小和不确定性方面，与 NHST 相比有何不同？

主要发现

在评估分类器时，NHST 可能会产生误导，因为交叉验证结果的相关性以及对 p 值的解释。
贝叶斯相关 t 检验产生均值差 μ 的后验，对于相同的数据，在数值上可能等价于频率学的 p 值，但支持不同的解释和决策。
在 54 个数据集上，存在 12 个数据集 where aode 实质上优于 nbc，6 个数据集 nbc 与 aode 实质上等价，且没有数据集 nb c 实质上优于 aode。
rope（实际等价区域）允许直接从后验估计 nbc ≪ aode、nbc ≈ aode 和 nbc ≫ aode 的概率。
后验分布通过 HDI 同时提供大小和不确定性，使结论比二元的显著/不显著更为细致。
该框架支持使用后验概率做出合理的自动决策，而无需依赖 p 值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。