QUICK REVIEW

[論文レビュー] Thresholding Classifiers to Maximize F1 Score

Zachary C. Lipton, Charles Elkan|arXiv (Cornell University)|Feb 8, 2014

Text and Document Classification Technologies参考文献 10被引用数 97

ひとこと要約

本稿では、二値分類およびマルチラベル分類におけるF1スコアを最大化する最適な意思決定閾値を導出している。uninformative（情報のない）分類器の場合、すべてのインスタンスを陽性と予測することで期待F1が最大になることを示している。また、マクロ平均F1は、予測がuninformativeな場合でさえもレアラベルの過剰予測を促進する可能性があり、低ベースレート設定において直感に反する挙動を引き起こすことがある。

ABSTRACT

This paper provides new insight into maximizing F1 scores in the context of binary classification and also in the context of multilabel classification. The harmonic mean of precision and recall, F1 score is widely used to measure the success of a binary classifier when one class is rare. Micro average, macro average, and per instance average F1 scores are used in multilabel classification. For any classifier that produces a real-valued output, we derive the relationship between the best achievable F1 score and the decision-making threshold that achieves this optimum. As a special case, if the classifier outputs are well-calibrated conditional probabilities, then the optimal threshold is half the optimal F1 score. As another special case, if the classifier is completely uninformative, then the optimal behavior is to classify all examples as positive. Since the actual prevalence of positive examples typically is low, this behavior can be considered undesirable. As a case study, we discuss the results, which can be surprising, of applying this procedure when predicting 26,853 labels for Medline documents.

研究の動機と目的

二値およびマルチラベル設定におけるF1スコアを最大化するための分類器出力の最適なしきい値を理解すること。
マルチラベル分類における異なる平均化方式（ミクロ、マクロ、インスタンスごと）の下でのF1最大化の挙動を分析すること。
F1の非対称性および非線形性が、分類器出力がuninformativeまたはキャリブレーション済みである場合のしきい値選択に与える影響を調査すること。
ベースレートが低い場合に、最適なF1しきい値選択が直感に反する予測（例：すべての例を陽性と予測する）を引き起こすことを示すこと。
マクロ平均F1が、ラベルがレアでかつモデルがそのラベルに対してuninformativeな場合に、過剰予測を促進するリスクを強調すること。

提案手法

任意の実数値分類器出力に対して、最適F1スコアと意思決定閾値の間の理論的関係を導出する。
well-calibratedな確率的分類器の場合、最適なしきい値が最適F1スコアの丁度半分に等しいことを証明する。
uninformativeな分類器におけるF1最大化の挙動を分析し、すべての陽性を予測することで期待F1が最大になることを示す。
集中不等式およびサンフアンの定理を用いて、経験的しきい値選択における非最適なしきい値の選択確率を上限付ける。
さまざまなベースレートおよびサンプルサイズを想定した合成データ上でしきい値選択を経験的に評価し、予測された陽性割合の分布を評価するために10,000回のシミュレーションを実施する。
実世界の事例研究として、Medlineドキュメントの26,853個のMeSHラベルを予測するフレームワークを適用し、レアラベルのベースレートが低く、特徴量の損失が過剰予測を引き起こす可能性がある状況を想定する。

実験結果

リサーチクエスチョン

RQ1与えられた分類器出力分布に対して、F1スコアを最大化する最適な意思決定閾値は何か？
RQ2分類器がuninformativeな場合、最適なしきい値は陽性例のベースレートにどのように依存するか？
RQ3分類器がuninformativeなラベルに対してuninformativeである場合、なぜマクロ平均F1がそのラベルの過剰予測を引き起こすのか？
RQ4F1スコアの非線形性および非対称性は、しきい値選択および予測行動にどのように影響を与えるか？
RQ5同じ分類器確率セットが、F1の平均化方式によって異なる最適な予測をもたらす可能性はあるか？

主な発見

uninformativeな分類器の場合、期待F1を最大化する最適なしきい値は、ベースレートにかかわらずすべての例を陽性と予測することである。
分類器出力がwell-calibratedな確率である場合、最適なしきい値は最適F1スコアの正確に半分に等しい。
最適F1しきい値は、例の予測確率に加えて、バッチ内に存在するすべての例における確率の分布にも依存する。
ベースレートが低いレアラベルでは、たとえ完全にキャリブレーションされたモデルであっても、最適しきい値選択下ではF1スコアが0に近くなることがあるのに対し、一般的なラベルは常に高いスコアを達成する。
マクロ平均F1では、レアラベルのパフォーマンスが不釣り合いに重み付けされるため、分類器がそのラベルに対してuninformativeな場合、そのラベルの過剰予測が生じる。
大規模データセットにおける経験的しきい値選択でも、ベースレートが低くかつサンプルサイズが不十分な場合には、F1の鋭いしきい値特性のため、真の最適しきい値を特定できない可能性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。