[论文解读] Should we really use post-hoc tests based on mean-ranks?
本文反对在多算法比较中使用均秩事后检验,因其结果依赖于所测试算法的完整集合,导致不一致且自相矛盾的结论。本文建议以仅依赖于待比较的两个算法的成对检验(如符号检验或Wilcoxon符号秩检验)替代,从而确保更可靠且一致的推断。
The statistical comparison of multiple algorithms over multiple data sets is fundamental in machine learning. This is typically carried out by the Friedman test. When the Friedman test rejects the null hypothesis, multiple comparisons are carried out to establish which are the significant differences among algorithms. The multiple comparisons are usually performed using the mean-ranks test. The aim of this technical note is to discuss the inconsistencies of the mean-ranks post-hoc test with the goal of discouraging its use in machine learning as well as in medicine, psychology, etc.. We show that the outcome of the mean-ranks test depends on the pool of algorithms originally included in the experiment. In other words, the outcome of the comparison between algorithms A and B depends also on the performance of the other algorithms included in the original experiment. This can lead to paradoxical situations. For instance the difference between A and B could be declared significant if the pool comprises algorithms C, D, E and not significant if the pool comprises algorithms F, G, H. To overcome these issues, we suggest instead to perform the multiple comparison using a test whose outcome only depends on the two algorithms being compared, such as the sign-test or the Wilcoxon signed-rank test.
研究动机与目标
- 识别在算法比较研究中使用Friedman检验后进行均秩事后检验所存在的根本性不一致之处。
- 证明均秩比较的结果依赖于所测试的全部算法集合,而不仅限于正在比较的一对算法。
- 论证这种依赖性会导致悖论性结果,例如在一种情境下将差异判定为显著,而在另一情境下则不显著,即使使用了不同的算法组合。
- 提出一种更稳健的替代方法,即使用仅依赖于正在比较的两个算法的成对非参数检验。
- 由于其固有的逻辑缺陷,建议在机器学习、医学、心理学及相关领域中避免使用均秩检验。
提出的方法
- 分析均秩事后检验对实验中包含的全部算法集合的依赖性。
- 通过逻辑和假设示例证明,两个算法(如A和B)之间的比较显著性可能因其他算法(如C、D、E与F、G、H)的存在与否而改变。
- 建议使用符号检验或Wilcoxon符号秩检验作为替代方法,这些方法仅评估正在比较的两个算法。
- 强调这些替代检验对其他算法的包含具有不变性,从而确保推断的一致性。
- 提供理论依据,说明此类成对检验更适用于建立可靠且与上下文无关的差异。
实验结果
研究问题
- RQ1均秩事后检验的结果是否依赖于所测试的全部算法集合,即使仅在比较两个算法时?
- RQ2同一组两个算法之间的比较,是否可能因其他算法的包含与否而产生矛盾的显著性结果?
- RQ3是否存在仅依赖于正在比较的两个算法的替代事后检验方法,以确保推断的一致性?
- RQ4为何在机器学习、医学和心理学等领域中使用均秩检验存在问题?
- RQ5在多算法比较场景中,均秩检验引入了哪些逻辑不一致?
主要发现
- 均秩事后检验产生不一致结果,因为其结果依赖于所测试的全部算法集合,而不仅限于正在比较的一对算法。
- 即使性能数据完全相同,两个算法A和B之间的差异在一种实验设置中可能被判定为显著,而在另一种设置中则不显著,仅因引入了不同的第三方算法。
- 这种依赖性导致悖论性情境,损害了算法比较研究中统计结论的可靠性和可解释性。
- 符号检验和Wilcoxon符号秩检验是可行的替代方法,因为它们的结果仅依赖于正在比较的两个算法,从而避免了此类不一致。
- 本文结论认为,由于其根本性的逻辑缺陷,应避免在机器学习及相关学科中使用均秩事后检验。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。