[论文解读] Superensemble Classifier for Improving Predictions in Imbalanced Datasets
本文提出了一种新型无分布假设的超集成分类器,结合了Hellinger距离决策树(HDDT)与径向基函数网络(RBFN),在不进行数据采样的前提下提升了对类别不平衡数据集的预测性能。该方法利用HDDT对类别不平衡的鲁棒性以及RBFN快速收敛与普遍一致性的优势,实现了在极少超参数调优下的最先进性能,并在多个真实世界数据集上展现出增强的可解释性。
Learning from an imbalanced dataset is a tricky proposition. Because these datasets are biased towards one class, most existing classifiers tend not to perform well on minority class examples. Conventional classifiers usually aim to optimize the overall accuracy without considering the relative distribution of each class. This article presents a superensemble classifier, to tackle and improve predictions in imbalanced classification problems, that maps Hellinger distance decision trees (HDDT) into radial basis function network (RBFN) framework. Regularity conditions for universal consistency and the idea of parameter optimization of the proposed model are provided. The proposed distribution-free model can be applied for feature selection cum imbalanced classification problems. We have also provided enough numerical evidence using various real-life data sets to assess the performance of the proposed model. Its effectiveness and competitiveness with respect to different state-of-the-art models are shown.
研究动机与目标
- 为解决在类别不平衡数据集中传统分类器偏向多数类而导致少数类性能差的问题。
- 开发一种无分布假设的集成模型,避免数据采样,以保持原始数据结构并减少计算开销。
- 将HDDT(对类别偏斜具有鲁棒性)与RBFN(快速收敛、普遍一致)的优势整合到单一、可解释的超集成框架中。
- 提供一种既能支持特征选择又能实现分类的小到中等规模类别不平衡数据集的解决方案。
- 展示该方法在性能上可与最先进模型(包括基于采样的方法和单分类器方法)相媲美。
提出的方法
- 所提出的超集成分类器将训练好的HDDT模型映射到RBFN框架中,使用HDDT节点作为RBF中心,构建混合模型。
- 在HDDT中使用Hellinger距离作为分裂准则,以确保对类别不平衡的鲁棒性,并减少对多数类的偏倚。
- RBFN组件采用具有高斯核的径向基函数,可在较弱正则性条件下实现快速训练和普遍一致性。
- 通过基于梯度或启发式方法优化模型参数(包括RBF宽度和权重),以最小化分类误差。
- 通过组合多个HDDT-RBFN映射,确保集成框架的多样性与泛化能力,降低过拟合与方差。
- 该方法设计为可解释,特征重要性由RBFN权重与HDDT分裂规则推导得出。
实验结果
研究问题
- RQ1在不修改类别分布的前提下,HDDT-RBFN混合超集成分类器是否能在类别不平衡数据集上超越传统分类器与基于采样的方法?
- RQ2所提出的超集成模型在处理类别不平衡时,如何保持普遍一致性?
- RQ3该模型在多大程度上减少了对SMOTE或SMOTE+ENN等数据采样技术的需求?
- RQ4与独立模型相比,HDDT与RBFN的集成如何提升泛化能力并降低过拟合?
- RQ5在小到中等规模的类别不平衡数据集中,该模型对特征选择与可解释性有何影响?
主要发现
- 所提出的超集成分类器在8个数据集中的5个实现了最高的AUC,优于单分类器与基于采样的方法。
- 在Pima糖尿病数据集中,该模型在SMOTE+ENN预处理下AUC达到0.748,优于k-NN与RF等基线模型。
- 在印度商学院数据集中,该模型在SMOTE+ENN下AUC达到0.914,显著优于RBFN(0.905)与RF(0.875)。
- 该模型表现出普遍一致性,且仅需极少超参数调优,适用于实际应用场景。
- 在高维数据集Page Blocks上表现强劲,AUC达到0.949(SMOTE+ENN预处理),接近理论最优上限。
- 该模型在保持高精度与可解释性方面表现优异,优于复杂黑箱模型,同时避免了数据采样并保留了原始数据结构。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。