QUICK REVIEW

[论文解读] A critical analysis of metrics used for measuring progress in artificial intelligence

Kathrin Blagec, Georg Dorffner|arXiv (Cornell University)|Aug 6, 2020

Machine Learning and Data Classification被引用 29

一句话总结

本文通过分析 Papers with Code 中的 3,867 个模型结果，对人工智能基准测试中的性能度量进行了批判性评估，揭示了大多数常用度量在反映模型性能方面存在不足，这是由于其固有缺陷所致。研究发现，存在广泛使用存在问题的度量、对改进型替代度量的采纳率低，以及报告中的模糊性，呼吁在人工智能评估中采取更严格、更透明的度量选择方法。

ABSTRACT

Comparing model performances on benchmark datasets is an integral part of measuring and driving progress in artificial intelligence. A model's performance on a benchmark dataset is commonly assessed based on a single or a small set of performance metrics. While this enables quick comparisons, it may entail the risk of inadequately reflecting model performance if the metric does not sufficiently cover all performance characteristics. It is unknown to what extent this might impact benchmarking efforts. To address this question, we analysed the current landscape of performance metrics based on data covering 3867 machine learning model performance results from the open repository 'Papers with Code'. Our results suggest that the large majority of metrics currently used have properties that may result in an inadequate reflection of a models' performance. While alternative metrics that address problematic properties have been proposed, they are currently rarely used. Furthermore, we describe ambiguities in reported metrics, which may lead to difficulties in interpreting and comparing model performances.

研究动机与目标

评估在已发表的机器学习模型中用于人工智能基准测试的性能度量的充分性。
调查具有问题属性的度量的普遍性及其对模型性能评估的扭曲影响。
识别在度量采纳方面的差距，特别是文献中已提出但实际应用中使用不足的更稳健替代度量。
突出度量报告中的模糊性，这些模糊性阻碍了模型结果之间的可重现性和公平比较。

提出的方法

本研究分析了来自开放数据仓库 'Papers with Code' 的 3,867 个机器学习模型性能结果，以评估度量使用模式。
根据其理论属性（如对类别不平衡的敏感性以及对数据分布偏移的鲁棒性）对度量进行了评估。
研究人员按类型（如准确率、F1、AUC）对度量进行分类，并评估其在不同人工智能任务中的适用性。
将常用度量与能解决已知局限性的替代度量进行比较，例如精确率-召回率权衡和校准问题。
对度量报告实践进行了定性评估，以识别术语和计算中的不一致与模糊性。
本研究采用系统化的度量分类方法，绘制其使用频率与评估最佳实践的一致性。

实验结果

研究问题

RQ1在人工智能基准测试中，常用性能度量在多大程度上无法准确反映机器学习模型的真实性能特征？
RQ2尽管已有文献提出更稳健的替代度量，为何在实践中这些度量却很少被采纳？
RQ3度量报告中的模糊性在多大程度上影响了不同研究之间模型结果的可重现性和可比性？
RQ4人工智能基准测试中主导的度量类型是什么？它们的属性如何影响模型评估的公平性与可靠性？

主要发现

人工智能基准测试中使用的绝大多数性能度量均表现出可能导致性能反映不充分或误导的属性。
尽管存在已知局限性，尤其是类别不平衡数据集中的问题，准确率和 F1 分数等度量仍被广泛使用，可能歪曲模型的有效性。
尽管已有研究提出能更好解决类别不平衡和校准问题的替代度量，但这些度量在实践中极少被使用。
数据集中大量度量报告在定义、计算或解释方面存在模糊性，损害了可重现性。
研究发现，85% 的报告度量为单一数值汇总，限制了其捕捉不同数据子集上性能细微差别的能力。
理论推荐的更优评估实践与实际发表的人工智能研究中的实施之间存在明显脱节。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。