[论文解读] How Complex is your classification problem? A survey on measuring classification complexity
本综述回顾用于分类问题的数据驱动复杂度度量,对它们进行分类,分析它们的优点/弱点,并在 R 中介绍 Extended Complexity Library (ECoL)。
Characteristics extracted from the training datasets of classification problems have proven to be effective predictors in a number of meta-analyses. Among them, measures of classification complexity can be used to estimate the difficulty in separating the data points into their expected classes. Descriptors of the spatial distribution of the data and estimates of the shape and size of the decision boundary are among the known measures for this characterization. This information can support the formulation of new data-driven pre-processing and pattern recognition techniques, which can in turn be focused on challenges highlighted by such characteristics of the problems. This paper surveys and analyzes measures which can be extracted from the training datasets in order to characterize the complexity of the respective classification problems. Their use in recent literature is also reviewed and discussed, allowing to prospect opportunities for future work in the area. Finally, descriptions are given on an R package named Extended Complexity Library (ECoL) that implements a set of complexity measures and is made publicly available.
研究动机与目标
- 总结用于表征分类问题复杂度的现有数据驱动度量。
- 将度量整理成连贯的类别(基于特征、线性、邻域、网络、维度、类别不平衡)。
- 讨论每个度量的优点、缺点以及实际考虑因素。
- 提出标准化和改编方法,以提高跨研究的可比性。
- 展示 Extended Complexity Library (ECoL) 在 R 中的实现及可用性。
提出的方法
- 对从训练数据中提取的复杂度度量进行调查与综合。
- 将度量重新组织为预定义类别,以提高清晰度。
- 将度量定义标准化为有界区间并实现可比语义。
- 讨论计算成本及其在二分类与多分类设置中的适用性。
- 介绍实现这些度量并作为重新实现桥接到 DCoL 的 ECoL R 包。
实验结果
研究问题
- RQ1哪些数据驱动的度量在跨领域的分类问题复杂度捕捉方面表现最佳?
- RQ2如何标准化现有的复杂度度量,以便在元分析中进行公平比较?
- RQ3主要复杂度度量的实际限制和计算成本是什么?
- RQ4Extended Complexity Library (ECoL) 如何促进对复杂度感知方法的研究与应用?
主要发现
- 本综述整合了多类度量体系(特征重叠、可分离性、几何/密度),并超越了以往工作。
- 它强调许多度量依赖于一定假设(例如正态性、轴对齐的边界),并且对噪声和特征数量的敏感性各不相同。
- 本文讨论了诸如对连续特征离散化和多类问题的 OvO 分解等实际问题。
- 它介绍了 ECoL,是一个在 R 中标准化并实现广泛复杂度度量的包,其中包括改编和修正。
- 机器学习文献中的应用表明,复杂度度量如何影响预处理和算法选择策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。