QUICK REVIEW

[论文解读] Thresholding Classifiers to Maximize F1 Score

Zachary C. Lipton, Charles Elkan|arXiv (Cornell University)|Feb 8, 2014

Text and Document Classification Technologies参考文献 10被引用 97

一句话总结

本文推导了二值分类器和多标签分类器在最大化F1分数时的最优决策阈值，表明对于无信息量的分类器，将所有样本预测为正例可使期望F1分数最大化。研究揭示了在宏观平均F1下，即使预测无信息，也可能激励对罕见标签的过度预测，导致在低基率场景下出现反直觉的行为。

ABSTRACT

This paper provides new insight into maximizing F1 scores in the context of binary classification and also in the context of multilabel classification. The harmonic mean of precision and recall, F1 score is widely used to measure the success of a binary classifier when one class is rare. Micro average, macro average, and per instance average F1 scores are used in multilabel classification. For any classifier that produces a real-valued output, we derive the relationship between the best achievable F1 score and the decision-making threshold that achieves this optimum. As a special case, if the classifier outputs are well-calibrated conditional probabilities, then the optimal threshold is half the optimal F1 score. As another special case, if the classifier is completely uninformative, then the optimal behavior is to classify all examples as positive. Since the actual prevalence of positive examples typically is low, this behavior can be considered undesirable. As a case study, we discuss the results, which can be surprising, of applying this procedure when predicting 26,853 labels for Medline documents.

研究动机与目标

理解如何在二值和多标签设置下，最优地对分类器输出进行阈值处理以最大化F1分数。
分析在多标签分类中，不同平均方法（微平均、宏平均、逐样本）下F1最大化的表现。
研究F1分数的非对称性和非线性对阈值选择的影响，特别是在分类器输出无信息或校准良好的情况下。
证明最优F1阈值化可能导致反直觉的预测行为——例如在基率较低时将所有样本预测为正例。
强调宏观平均F1可能激励对无信息标签的过度预测，尤其在这些标签的基率较低时。

提出的方法

推导了任意实值分类器输出的最优F1分数与决策阈值之间的理论关系。
证明对于校准良好的概率分类器，最优阈值恰好等于最优F1分数的一半。
分析了在无信息分类器下的F1最大化行为，表明将所有样本预测为正例可使期望F1最大化。
使用大数定律和Sanov定理来界定在经验阈值选择过程中选择次优阈值的概率。
通过在不同基率和样本量的合成数据上进行实证评估，模拟10,000次运行，以分析预测为正例比例的分布。
将该框架应用于一个真实世界案例研究：对Medline文献中的26,853个MeSH标签进行预测，其中罕见标签的基率较低，且特征缺失可能导致过度预测。

实验结果

研究问题

RQ1对于给定的分类器输出分布，最大化F1分数的最优决策阈值是什么？
RQ2当分类器无信息时，最优阈值如何依赖于正例的基率，特别是当基率较低时？
RQ3为何在分类器对某些标签无信息时，宏观平均F1会导致对罕见标签的过度预测？
RQ4F1分数的非线性和非对称性如何影响阈值选择和预测行为？
RQ5相同的分类器概率集合，是否可能因F1平均方法的不同而产生截然不同的最优预测？

主要发现

对于无信息分类器，为使期望F1最大化，最优阈值是将所有样本预测为正例，与基率无关。
当分类器输出为校准良好的概率时，最优阈值恰好等于最优F1分数的一半。
最优F1阈值不仅依赖于单个样本的预测概率，还依赖于批次中所有样本概率的分布。
对于基率极低的罕见标签，即使模型完全校准，最优阈值下的F1分数仍可能接近零，而常见标签的F1分数始终较高。
在宏观平均F1中，罕见标签的表现被不成比例地加权，导致当分类器对这些标签无信息时，会过度预测这些标签。
在大规模数据集上进行经验阈值选择仍可能无法识别出真正的最优阈值，尤其在基率较低且样本量不足时，这是由于F1的阈值行为具有陡峭特性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。