[论文解读] The MCC-F1 curve: a performance evaluation technique for binary classification
本文提出 MCC-F1 曲线,以解决 ROC/PR 分析中的偏差,将 MCC 与 F1 融合成曲线和一个单一的综合指标,并提供一个配套的 R 包。
Many fields use the ROC curve and the PR curve as standard evaluations of binary classification methods. Analysis of ROC and PR, however, often gives misleading and inflated performance evaluations, especially with an imbalanced ground truth. Here, we demonstrate the problems with ROC and PR analysis through simulations, and propose the MCC-F1 curve to address these drawbacks. The MCC-F1 curve combines two informative single-threshold metrics, MCC and the F1 score. The MCC-F1 curve more clearly differentiates good and bad classifiers, even with imbalanced ground truths. We also introduce the MCC-F1 metric, which provides a single value that integrates many aspects of classifier performance across the whole range of classification thresholds. Finally, we provide an R package that plots MCC-F1 curves and calculates related metrics.
研究动机与目标
- 揭示 ROC 与 PR 曲线在不平衡二分类情形下的局限性。
- 提出 MCC-F1 曲线作为更具信息性的评估工具。
- 引入一个跨阈值汇总性能的单一综合 MCC-F1 指标。
- 提供一个配套的软件实现(R 包)用于实际应用。
提出的方法
- 通过仿真实验分析 ROC 与 PR 的不足,以说明性能被夸大。
- 将 MCC-F1 曲线定义为跨阈值将 MCC 和 F1 结合的图。
- 将 MCC-F1 指标定义为跨越阈值范围的单一值来总结性能。
- 开发并发布一个 R 包,用于绘制 MCC-F1 曲线并计算相关指标。
实验结果
研究问题
- RQ1在不平衡的二分类情景中,ROC 与 PR 分析是否会夸大性能?
- RQ2是否可以将 MCC 与 F1 结合成一个曲线,在跨阈值时更好地区别好的和差的分类器?
- RQ3MCC-F1 曲线是否提供在跨阈值时对分类器性能的可靠单一度量摘要?
- RQ4是否有可访问的软件工具,供从业者计算和绘制 MCC-F1 曲线?
主要发现
- 在不平衡设置中,ROC/PR 分析可能提供误导性的评估。
- 在不平衡情形下,MCC-F1 曲线比 ROC/PR 更清晰地区分分类器。
- MCC-F1 指标提供跨阈值性能的单一值摘要。
- 提供一个 R 包,用于绘制 MCC-F1 曲线并计算相关指标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。