QUICK REVIEW

[논문 리뷰] Macro F1 and Macro F1

Juri Opitz, Sebastian Burst|arXiv (Cornell University)|2019. 11. 08.

Text and Document Classification Technologies참고 문헌 4인용 수 24

한 줄 요약

이 논문은 분류 평가에서 매크로 F1을 계산하는 데 사용되는 두 가지 상이한 공식을 규명하고 분석한다: '평균화된 F1'(클래스별 F1 점수의 산술 평균)과 '평균의 F1'(클래스 평균 정밀도와 재현율의 조화 평균). 이는 오차 분포가 비대칭일 경우 '평균의 F1'이 '평균화된 F1'보다 최대 0.5 높을 수 있음을 증명하며, 이는 분류기 순위가 상이해지는 결과를 초래한다. 주요 기여는 불균형 분류 작업에서 모델 평가를 오해할 수 있는 매크로 F1 사용에 대한 잠재적 모호성을 드러내는 데 있다.

ABSTRACT

The 'macro F1' metric is frequently used to evaluate binary, multi-class and multi-label classification problems. Yet, we find that there exist two different formulas to calculate this quantity. In this note, we show that only under rare circumstances the two computations can be considered equivalent. More specifically, one formula well 'rewards' classifiers which produce a skewed error type distribution. In fact, the difference in outcome of the two computations can be as high as 0.5. The two computations may not only diverge in their scalar result but can also lead to different classifier rankings.

연구 동기 및 목표

분류 평가에서 매크로 F1을 계산하는 데 사용되는 두 가지 상반된 공식이 존재하는지를 규명하고 명확히 하는 것.
두 공식이 수치적 결과에서 다름을 보이는 수학적 조건을 분석하는 것.
동일한 모델과 데이터셋에 적용되더라도 두 지표가 분류기를 다른 순서로 평가할 수 있음을 보여주는 것.
두 지표 간의 최대 가능한 차이를 정량화하고, 이러한 차이를 최대화하는 오차 분포 패턴을 특정하는 것.
맥락에 따라 기초 공식을 명시하지 않은 채 매크로 F1을 사용할 경우 오해와 일관성 없는 결론에 이르는 위험을 연구자들에게 경고하는 것.

제안 방법

두 가지 상이한 매크로 F1 공식 정의: '평균화된 F1'은 각 클래스별 조화 F1 점수의 산술 평균이며, '평균의 F1'은 클래스 평균 정밀도와 재현율의 조화 평균이다.
행렬 기반의 각 클래스별 정밀도와 재현율을 사용하여 Δ = F1_of_averages − averaged_F1 의 닫힌 형태 표현식을 유도하는 것.
항상 Δ ≥ 0 이고, Δ > 0 이 되는 것은 적어도 하나의 클래스에서 Pᵢ ≠ Rᵢ 인 경우에만 성립함을 증명하는 것.
이론적 상한선으로 Δ의 최대값이 n 이 짝수일 때 0.5, 홀수일 때 0.5 − 1/(2n²) 임을 규명하며, 극단적인 오차 비대칭 조건에서 이를 달성함을 보여주는 것.
가짜 데이터셋과 무작위 분류기를 사용한 수치 실험을 통해 이론적 차이와 분류기 순위의 불일치를 실증적으로 검증하는 것.
양측 지표와 그 차이를 계산하는 데 사용할 수 있는 기준 코드를 구현하여 재현 가능성과 실용적 활용을 보장하는 것.

실험 결과

연구 질문

RQ1두 매크로 F1 공식이 상당한 수치적 결과의 차이를 보이는 조건은 무엇인가?
RQ2동일한 데이터셋에서 평가할 경우 두 매크로 F1 지표가 분류기 순위를 서로 다를 수 있는가?
RQ3두 매크로 F1 공식 간의 최대 가능한 차이는 얼마이며, 어떤 오차 분포에서 이 차이가 달성되는가?
RQ4'평균의 F1' 공식이 왜 오차 분포가 비대칭인 분류기를 체계적으로 선호하는가?
RQ5불균형한 클래스 분포와 무작위 기준선이 있는 실제 상황에서 이러한 차이는 어떻게 나타나는가?

주요 결과

클래스 수가 짝수이고 오차 분포가 극도로 비대칭일 경우 '평균의 F1' 지표는 '평균화된 F1'보다 최대 0.5 높을 수 있다.
어느 클래스라도 정밀도와 재현율이 다를 경우 즉, Pᵢ ≠ Rᵢ 이면 두 지표 간의 차이 Δ 는 엄밀히 양수이다.
두 지표는 분류기를 다른 순서로 평가할 수 있다: 특정 오류 유형을 편향하는 분류기는 '평균의 F1'에서는 높은 순위를, '평균화된 F1'에서는 낮은 순위를 받을 수 있다.
불균형한 데이터(예: 95% 대 5%)에서 무작위 분류 작업을 수행할 경우 '평균의 F1'은 최대 약 0.56을 기록하는 반면 '평균화된 F1'은 약 0.41에 머무르며, 이는 제곱근 평균 제곱 오차가 약 0.13임을 의미한다.
어느 클래스는 (P,R) ≈ (1,0) 이고 다른 클래스는 (P,R) ≈ (0,1) 인 경우에 Δ 의 차이가 최대가 된다. 이 경우 평균화된 F1은 약 0이 되지만, 평균의 F1은 약 0.5가 된다.
구현 예시에서는 실질적으로 0.485의 차이를 보였다: 극도로 비대칭한 혼동 행렬에서 '평균의 F1'은 0.505를 기록하는 반면, '평균화된 F1'은 단지 0.0196에 머문다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.