[논문 리뷰] A critical analysis of metrics used for measuring progress in artificial intelligence
이 논문은 Papers with Code의 3,867개 모델 결과를 바탕으로 AI 벤치마킹에서의 성능 메트릭을 철저히 평가하여, 대부분의 일반적으로 사용되는 메트릭이 결함 있는 성질을 지녀 모델 성능을 부적절하게 반영한다고 밝힌다. 연구는 문제적 성질을 지닌 메트릭의 광범위한 사용, 개선된 대안 메트릭의 낮은 수용도, 보고서의 모호성 등을 규명하며, AI 평가에서 더 철저하고 투명한 메트릭 선택이 필요하다고 촉구한다.
Comparing model performances on benchmark datasets is an integral part of measuring and driving progress in artificial intelligence. A model's performance on a benchmark dataset is commonly assessed based on a single or a small set of performance metrics. While this enables quick comparisons, it may entail the risk of inadequately reflecting model performance if the metric does not sufficiently cover all performance characteristics. It is unknown to what extent this might impact benchmarking efforts. To address this question, we analysed the current landscape of performance metrics based on data covering 3867 machine learning model performance results from the open repository 'Papers with Code'. Our results suggest that the large majority of metrics currently used have properties that may result in an inadequate reflection of a models' performance. While alternative metrics that address problematic properties have been proposed, they are currently rarely used. Furthermore, we describe ambiguities in reported metrics, which may lead to difficulties in interpreting and comparing model performances.
연구 동기 및 목표
- 공개된 기계학습 모델들에서 사용되는 성능 메트릭의 적정성을 평가하기 위해.
- 모델 성능 평가 평가를 왜곡할 수 있는 문제적 성질을 지닌 메트릭의 보편성과 영향력을 조사하기 위해.
- 문헌에서 제안된 보다 강력한 대안 메트릭의 사용 부족 등 메트릭 수용의 격차를 규명하기 위해.
- 모델 간 재현성과 공정한 비교를 저해하는 메트릭 보고서의 모호성을 부각하기 위해.
제안 방법
- 연구는 오픈 레포지터리인 'Papers with Code'에서 확보한 3,867개 기계학습 모델의 성능 결과를 분석하여 메트릭 사용 패턴을 평가했다.
- 메트릭은 클래스 불균형에 대한 민감도 및 데이터 분포 이동에 대한 강건성과 같은 이론적 성질을 기준으로 평가되었다.
- 연구진은 메트릭을 유형(예: 정확도, F1, AUC)별로 분류하고 다양한 AI 작업에 대한 적합성을 평가했다.
- 기존의 한계를 해결하는 데 도움이 되는 대안 메트릭(예: 정밀도-재현율 트레이드오프 및 校정 문제)과 일반적으로 사용되는 메트릭을 비교했다.
- 메트릭 보고 방식의 정성적 평가를 통해 용어 및 계산에서의 일관성 부족과 모호성을 규명했다.
- 메트릭 사용 빈도와 평가 분야의 최선의 실천 방침과의 일치도를 파악하기 위해 체계적인 메트릭 분류를 사용했다.
실험 결과
연구 질문
- RQ1AI 벤치마킹에서 일반적으로 사용되는 성능 메트릭이 기계학습 모델의 진정한 성능 특성을 충분히 반영하지 못하는 정도는 어느 정도인가?
- RQ2문헌에서 제안된 바에도 불구하고, 더 강력한 대안 메트릭은 왜 실무에서 거의 채택되지 않는가?
- RQ3메트릭 보고서의 모호성이 다양한 연구 간 모델 결과의 재현성과 비교 가능성에 어떤 영향을 미치는가?
- RQ4AI 벤치마킹에서 지배적인 메트릭 유형은 무엇이며, 이러한 메트릭의 성질은 모델 평가의 공정성과 신뢰성에 어떤 영향을 미치는가?
주요 결과
- AI 벤치마킹에서 사용되는 대부분의 성능 메트릭은 모델 성능을 부적절하거나 오해의 소지가 있는 방식으로 반영할 수 있는 성질을 지닌다.
- 정확도와 F1 스코어와 같은 메트릭은 클래스 불균형 데이터셋에서의 알려진 한계에도 불구하고 널리 사용되고 있으며, 이는 모델의 효과성을 잘못 표현할 수 있다.
- 클래스 불균형 및 校정 문제와 같은 문제를 더 잘 해결하는 대안 메트릭은 기존 연구에서 제안되었음에도 불구하고 거의 사용되지 않는다.
- 데이터셋 내 메트릭 보고서의 상당수는 정의, 계산 또는 해석에서 모호성이 있으며, 이는 재현성을 떨어뜨린다.
- 연구에서 85%의 보고된 메트릭이 단일 값 요약에 국한되어 있어, 다양한 데이터 서브셋에서의 성능를 세밀하게 반영할 능력이 제한된다.
- 이론적 권고로 제안된 보다 나은 평가 관행과 실제 공개된 AI 연구에서의 구현 사이에 명확한 괴리가 존재한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.