Skip to main content
QUICK REVIEW

[论文解读] Macro F1 and Macro F1

Juri Opitz, Sebastian Burst|arXiv (Cornell University)|Nov 8, 2019
Text and Document Classification Technologies参考文献 4被引用 24
一句话总结

本文识别并分析了计算宏F1的两种不同公式:'平均F1'(各类别F1得分的算术平均)和'平均值的F1'(各类别平均精确率与召回率的调和平均)。研究证明,当错误分布偏斜时,'平均值的F1'的值可能显著高于'平均F1',最高可达0.5,从而导致分类器排名出现分歧。其核心贡献在于揭示了宏F1使用中的一个关键模糊性,该模糊性可能在类别不平衡的分类任务中误导模型评估。

ABSTRACT

The 'macro F1' metric is frequently used to evaluate binary, multi-class and multi-label classification problems. Yet, we find that there exist two different formulas to calculate this quantity. In this note, we show that only under rare circumstances the two computations can be considered equivalent. More specifically, one formula well 'rewards' classifiers which produce a skewed error type distribution. In fact, the difference in outcome of the two computations can be as high as 0.5. The two computations may not only diverge in their scalar result but can also lead to different classifier rankings.

研究动机与目标

  • 识别并澄清分类评估中计算宏F1的两种冲突公式的存在。
  • 分析两种公式在数值结果上出现分歧的数学条件。
  • 证明即使在相同模型和数据集上,两种度量指标也可能对分类器进行不同排名。
  • 量化两种度量指标之间可能的最大差异,并识别出使该差异最大化的错误分布模式。
  • 提醒研究人员在未明确说明底层公式的前提下使用宏F1时,存在误读和结论不一致的风险。

提出的方法

  • 定义两种不同的宏F1公式:'平均F1'为各类别F1得分的算术平均,'平均值的F1'为各类别平均精确率与召回率的调和平均。
  • 基于各类别的矩阵化精确率与召回率,推导出差值Δ = F1_of_averages − averaged_F1的闭式表达式。
  • 证明Δ ≥ 0恒成立,且Δ > 0当且仅当至少存在一个类别满足Pᵢ ≠ Rᵢ。
  • 建立Δ的理论上限为0.5(当n为偶数时)或0.5 − 1/(2n²)(当n为奇数时),该上限在极端错误失衡条件下实现。
  • 在具有随机分类器的合成数据集上进行数值实验,以实证验证理论差异及分类器排名的不一致。
  • 实现一个参考代码,用于计算两种度量指标及其差值,以支持可复现性与实际应用。

实验结果

研究问题

  • RQ1在何种条件下,两种宏F1公式会产生显著不同的数值结果?
  • RQ2当在相同数据集上评估时,两种宏F1度量是否可能导致对分类器的不同排名?
  • RQ3两种宏F1公式的最大可能差异是多少?该差异在何种错误分布下实现?
  • RQ4为何'平均值的F1'公式会系统性地偏好具有偏斜错误分布的分类器?
  • RQ5在类别分布不平衡及随机基线的真实场景中,这些差异如何体现?

主要发现

  • '平均值的F1'指标在类别数为偶数且错误分布极度偏斜时,可能比'平均F1'高出最多0.5。
  • 当任意类别满足Pᵢ ≠ Rᵢ时,两种度量指标之间的差值Δ严格为正。
  • 两种度量指标可能对分类器进行不同排名:一个在某些错误类型上具有偏向性的分类器,可能在'平均值的F1'下排名更高,但在'平均F1'下排名更低。
  • 在类别不平衡的随机分类任务中(例如95% vs. 5%),'平均值的F1'得分更高(最高约0.56),而'平均F1'得分较低(约0.41),其均方根偏差为0.13。
  • 当某些类别满足(P,R) ≈ (1,0),另一些类别满足(P,R) ≈ (0,1)时,差值Δ达到最大,此时'平均F1'的F1≈0,而'平均值的F1'的F1≈0.5。
  • 实际实现示例显示差值达0.485:对于极端不平衡的混淆矩阵,'平均值的F1'得分为0.505,而'平均F1'仅得0.0196。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。