QUICK REVIEW

[論文レビュー] Macro F1 and Macro F1

Juri Opitz, Sebastian Burst|arXiv (Cornell University)|Nov 8, 2019

Text and Document Classification Technologies参考文献 4被引用数 24

ひとこと要約

この論文は、マクロF1を計算するための2つの異なる式を特定し、分析している：'平均F1'（クラスごとのF1スコアの算術平均）と'平均のF1'（クラス平均の適合率と再現率の調和平均）。誤差分布が非対称な場合、'平均のF1'は'平均F1'よりも最大0.5高くなる可能性があり、分類器の順位付けが著しく異なる結果をもたらす。主な貢献は、不均衡分類タスクにおけるモデル評価を誤解を招く可能性がある、マクロF1の使用における重大な曖昧性を暴露した点である。

ABSTRACT

The 'macro F1' metric is frequently used to evaluate binary, multi-class and multi-label classification problems. Yet, we find that there exist two different formulas to calculate this quantity. In this note, we show that only under rare circumstances the two computations can be considered equivalent. More specifically, one formula well 'rewards' classifiers which produce a skewed error type distribution. In fact, the difference in outcome of the two computations can be as high as 0.5. The two computations may not only diverge in their scalar result but can also lead to different classifier rankings.

研究の動機と目的

分類評価におけるマクロF1を計算するための2つの矛盾する式の存在を特定し、明確化すること。
2つの式が数値的結果で乖離する数学的条件を分析すること。
同じモデルとデータセットに対して適用された場合でも、2つのメトリクスが分類器を異なる順位にランク付けすることを示すこと。
2つのメトリクス間の最大差を定量化し、その差を最大化する誤差分布のパターンを同定すること。
マクロF1を用いる際、基礎となる式を明示しないと、誤解や一貫性のない結論に至るリスクがあることを研究者に警告すること。

提案手法

2つの異なるマクロF1の定式化を定義：'平均F1'はクラスごとのF1スコアの算術平均、'平均のF1'はクラス平均の適合率と再現率の調和平均。
行列に基づくクラスごとの適合率と再現率を用いて、差Δ = F1_of_averages − averaged_F1の閉形式表現を導出する。
Δ ≥ 0 が常に成り立ち、Δ > 0 であるのは少なくとも1つのクラスでPᵢ ≠ Rᵢ である場合に限ることを証明する。
理論的上限としてΔの最大値が0.5（nが偶数のとき）または0.5 − 1/(2n²)（nが奇数のとき）であることを示し、極端な誤差の不均衡状態で達成されることを示す。
ランダム分類器を用いた合成データセット上で数値実験を実施し、理論的差異と分類器順位の不一致を実証的に検証する。
両方のメトリクスとその差を計算するリファレンスコードを実装し、再現可能性と実用的利用を可能にする。

実験結果

リサーチクエスチョン

RQ12つのマクロF1式が顕著に異なる数値的結果を生じる条件は何か？
RQ2同じデータセット上で評価された場合、2つのマクロF1メトリクスが分類器の順位付けを異なるものにすることがあるか？
RQ32つのマクロF1定式化の間で得られる最大差は何か？そして、その差が達成される誤差分布のパターンは何か？
RQ4'平均のF1'式がなぜ、誤差分布が非対称な分類器を系統的に好むのか？
RQ5不均衡なクラス分布とランダムベースラインを伴う現実世界の状況では、これらの差異はどのように現れるか？

主な発見

クラス数が偶数で誤差分布が最大限に非対称な場合、'平均のF1'は'平均F1'よりも最大0.5高くなる。
任意のクラスで適合率と再現率が等しくない（すなわちPᵢ ≠ Rᵢ）限り、2つのメトリクス間の差Δは厳密に正である。
2つのメトリクスは分類器の順位付けを異なるものにすることがある：特定の誤差タイプに偏った分類器は、'平均のF1'では高い順位を得るが、'平均F1'では低い順位になることがある。
不均衡データ（例：95% 対 5%）を伴うランダム分類タスクでは、'平均のF1'は最大約0.56、'平均F1'は約0.41となり、その差は標準平均平方偏差0.13に達する。
差Δは、あるクラスで(P,R) ≈ (1,0)、他のクラスで(P,R) ≈ (0,1) となる極端な不均衡状態で最大値に達する。この場合、'平均F1'はF1 ≈ 0 だが、'平均のF1'はF1 ≈ 0.5 となる。
実装例では、極端な不均衡を示す混同行列に対して、実際の差が0.485に達した：'平均のF1'は0.505、'平均F1'はわずか0.0196であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。