Skip to main content
QUICK REVIEW

[论文解读] A Nonparametric Ensemble Binary Classifier and its Statistical Properties

Tanujit Chakraborty, Ashis Kumar Chakraborty|arXiv (Cornell University)|Apr 29, 2018
Neural Networks and Applications参考文献 33被引用 18
一句话总结

本文提出了一种非参数集成二分类器,结合分类树(CT)与人工神经网络(ANN),在高维、小至中等规模的医学数据集中实现普遍一致性和更高的分类准确率。该方法利用CT进行特征选择,并将CT的输出作为单隐层神经网络的输入特征,通过解析推导出最优神经元数量,相较于最先进模型,实现了更优性能与更少的超参数调优。

ABSTRACT

In this work, we propose an ensemble of classification trees (CT) and artificial neural networks (ANN). Several statistical properties including universal consistency and upper bound of an important parameter of the proposed classifier are shown. Numerical evidence is also provided using various real life data sets to assess the performance of the model. Our proposed nonparametric ensemble classifier doesn't suffer from the `curse of dimensionality' and can be used in a wide variety of feature selection cum classification problems. Performance of the proposed model is quite better when compared to many other state-of-the-art models used for similar situations.

研究动机与目标

  • 开发一种非参数集成分类器,结合分类树(CT)与人工神经网络(ANN)的优势,以提升分类准确率。
  • 为所提出的集成模型建立理论保证,包括普遍一致性和隐藏神经元数量的上界。
  • 相比深度或复杂神经网络,减少超参数数量并提升可解释性。
  • 在高维、小至中等规模的数据集中实现有效的特征选择与分类,尤其适用于医学应用。
  • 弥合混合CT-ANN模型在经验成功与理论依据之间的差距。

提出的方法

  • 首先在数据上训练分类树(CT),以识别重要特征并生成类别预测。
  • 将CT预测的类别标签作为额外输入特征,引入单隐层前馈神经网络(ANN)。
  • 仅使用CT选择的特征和CT输出训练ANN,采用Sigmoid激活函数,并对输入数据进行最小-最大归一化。
  • 推导出隐藏层最优神经元数量为 O(√(n / (dm log n))),其中 n 为训练样本数,dm 为ANN中的输入特征数。
  • 将集成模型应用于真实世界医学数据集,与最先进分类器(包括RF、SVM和DNDT)进行性能比较。
  • 使用neuralnet R包进行ANN训练,确保计算成本低且内存占用少。

实验结果

研究问题

  • RQ1混合CT-ANN集成模型能否在保持低计算成本和极少超参数调优的前提下实现普遍一致性?
  • RQ2将CT预测的类别标签作为输入特征是否能提升后续ANN的分类性能?
  • RQ3所提出的集成模型中,ANN组件隐藏层的最优神经元数量是多少?
  • RQ4在高维、小至中等规模的医学数据集中,该模型在准确率和鲁棒性方面与现有最先进分类器相比如何?
  • RQ5基于CT的特征选择在集成框架中在多大程度上提升了模型性能与可解释性?

主要发现

  • 所提出的集成CT-ANN模型实现了普遍一致性,为其可靠性提供了坚实的理论基础。
  • 隐藏层最优神经元数量理论上推导为 O(√(n / (dm log n))),显著减少了对超参数调优的需求。
  • 在六个真实医学数据集上,该模型在所有对比模型中实现了最高总体准确率(威斯康星州乳腺癌数据集达97.30%)和F1值(0.98)。
  • 该模型在大多数数据集上优于最先进模型,如随机森林(RF)、支持向量机(SVM)和深度神经决策树(DNDT),尤其在特征选择与分类准确率方面表现更优。
  • 该模型表现出极低的计算成本和内存占用,训练时间与资源需求显著低于依赖GPU的模型(如DNDT)。
  • 将CT输出作为输入特征显著提升了类别可分性,尤其在复杂、高维特征空间中贡献了性能提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。