[论文解读] Classification of Cervical Cancer Dataset
本研究提出了一种机器学习框架,利用包含858个样本和32个属性的数据集对宫颈癌进行分类,通过过采样/欠采样以及特征选择方法处理缺失值和类别不平衡问题。采用过滤法和包装法识别出年龄、首次性生活时间、怀孕次数、吸烟状况、激素避孕药使用情况以及生殖器疱疹史为最重要的预测特征,使用决策树分类器实现了97.5%的准确率。
Cervical cancer is the leading gynecological malignancy worldwide. This paper presents diverse classification techniques and shows the advantage of feature selection approaches to the best predicting of cervical cancer disease. There are thirty-two attributes with eight hundred and fifty-eight samples. Besides, this data suffers from missing values and imbalance data. Therefore, over-sampling, under-sampling and embedded over and under sampling have been used. Furthermore, dimensionality reduction techniques are required for improving the accuracy of the classifier. Therefore, feature selection methods have been studied as they divided into two distinct categories, filters and wrappers. The results show that age, first sexual intercourse, number of pregnancies, smokes, hormonal contraceptives, and STDs: genital herpes are the main predictive features with high accuracy with 97.5%. Decision Tree classifier is shown to be advantageous in handling classification assignment with excellent performance.
研究动机与目标
- 提高在存在缺失值和类别不平衡的数据集中宫颈癌预测的准确性。
- 评估不同特征选择技术(过滤法与包装法)在提升分类器性能方面的有效性。
- 利用机器学习识别本数据集中最具预测性的临床与人口统计学特征。
- 比较不同采样策略(过采样、欠采样、嵌入式方法)在处理类别不平衡数据时对模型性能的影响。
- 确定在给定数据集和预处理技术下,预测宫颈癌的最佳分类模型。
提出的方法
- 应用过采样、欠采样和嵌入式采样技术以解决宫颈癌数据集中的类别不平衡问题。
- 使用基于过滤法的特征选择(如基于相关性的方法、信息增益)对特征进行排序并选择相关特征。
- 采用基于包装法的特征选择(如递归特征消除)识别最具预测性的特征子集。
- 通过特征选择降低维度,以提高分类器的效率与准确率。
- 训练并评估多种分类器,其中决策树模型表现最优。
- 使用准确率作为主要指标,在预处理后并选择特征的数据集上评估模型性能。
实验结果
研究问题
- RQ1在宫颈癌预测中,哪种特征选择技术(过滤法 vs. 包装法)能实现最高的分类准确率?
- RQ2不同采样策略(过采样、欠采样、嵌入式方法)对类别不平衡宫颈癌数据的模型性能有何影响?
- RQ3在给定数据集中,哪些临床与人口统计学特征对宫颈癌最具预测性?
- RQ4在结合特征选择与采样技术后,预测宫颈癌的最佳机器学习分类器是什么?
- RQ5通过特征选择进行降维在多大程度上提升了宫颈癌分类模型的准确率?
主要发现
- 特征选择与采样技术的结合显著提升了分类准确率,最高达到97.5%。
- 在预处理后的数据集上,决策树分类器在预测宫颈癌方面优于其他模型。
- 年龄、首次性生活时间、怀孕次数、吸烟状况、激素避孕药使用情况以及生殖器疱疹史被确定为最重要的六个预测特征。
- 在本数据集中,基于包装法的特征选择方法比过滤法更有效地提升了模型准确率。
- 使用嵌入式采样技术有助于平衡数据集,同时避免数据泄露或过拟合问题。
- 最终模型在特异性与敏感性方面均表现优异,表明其在宫颈癌数据集上具有良好的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。