Skip to main content
QUICK REVIEW

[论文解读] Dengue disease prediction using weka data mining tool

Kashish Ara Shakil, Shadma Anis|arXiv (Cornell University)|Feb 18, 2015
Artificial Intelligence in Healthcare参考文献 11被引用 44
一句话总结

本研究在将108个实例减少至99行、18个属性的数据集上,评估了WEKA中多种数据挖掘算法在登革热预测中的表现。朴素贝叶斯和J48算法均实现了100%的分类准确率、AUC为1、平均绝对误差最小以及最快的模型训练时间,表明在这项研究中它们是最有效的登革热预测算法。

ABSTRACT

Dengue is a life threatening disease prevalent in several developed as well as developing countries like India.In this paper we discuss various algorithm approaches of data mining that have been utilized for dengue disease prediction. Data mining is a well known technique used by health organizations for classification of diseases such as dengue, diabetes and cancer in bioinformatics research. In the proposed approach we have used WEKA with 10 cross validation to evaluate data and compare results. Weka has an extensive collection of different machine learning and data mining algorithms. In this paper we have firstly classified the dengue data set and then compared the different data mining techniques in weka through Explorer, knowledge flow and Experimenter interfaces. Furthermore in order to validate our approach we have used a dengue dataset with 108 instances but weka used 99 rows and 18 attributes to determine the prediction of disease and their accuracy using classifications of different algorithms to find out the best performance. The main objective of this paper is to classify data and assist the users in extracting useful information from data and easily identify a suitable algorithm for accurate predictive model from it. From the findings of this paper it can be concluded that Naïve Bayes and J48 are the best performance algorithms for classified accuracy because they achieved maximum accuracy= 100% with 99 correctly classified instances, maximum ROC = 1, had least mean absolute error and it took minimum time for building this model through Explorer and Knowledge flow results

研究动机与目标

  • 识别在真实世界健康数据上预测登革热疾病时最准确的数据挖掘算法。
  • 评估并比较WEKA中各种机器学习算法在登革热分类中的性能。
  • 基于准确率、AUC、平均绝对误差和训练时间,确定最优算法。
  • 为卫生组织提供一个实用框架,以选择有效的登革热疫情预测模型。
  • 验证WEKA的Explorer、Knowledge Flow和Experimenter界面在模型选择和评估中的有效性。

提出的方法

  • 本研究使用一个包含108个实例的登革热数据集,经处理后保留99行和18个属性用于分析。
  • 采用十折交叉验证来评估所有算法的模型性能。
  • 使用WEKA的Explorer、Knowledge Flow和Experimenter界面训练并比较12种不同的分类算法。
  • 性能指标包括分类准确率、受试者工作特征曲线下面积(AUC)、平均绝对误差以及模型训练时间。
  • 根据最高准确率、最高AUC以及最低误差和时间,选择表现最佳的算法。
  • 通过所有界面的对比评估,确定朴素贝叶斯和J48为表现最优的算法。

实验结果

研究问题

  • RQ1WEKA中的哪种数据挖掘算法在登革热预测中实现最高的分类准确率?
  • RQ2不同算法在AUC、平均绝对误差和训练时间方面如何比较?
  • RQ3WEKA的Explorer、Knowledge Flow和Experimenter界面能否有效支持登革热预测的模型选择?
  • RQ4在登革热预测中,准确率、计算效率和模型可靠性之间最优平衡是什么?
  • RQ5结合十折交叉验证与多个WEKA界面是否能增强模型评估的稳健性?

主要发现

  • 朴素贝叶斯和J48算法在数据集的全部99个实例中均实现了100%的分类准确率,正确分类了所有样本。
  • 这两种算法均达到最大受试者工作特征曲线下面积(AUC)为1.0,表明具有完美的判别能力。
  • 这两类算法在所有评估模型中记录了最低的平均绝对误差。
  • 朴素贝叶斯和J48所需的训练时间最短,使其在模型构建方面最为高效。
  • WEKA的Explorer和Knowledge Flow界面结果一致,确认了朴素贝叶斯和J48的卓越性能。
  • 本研究证实,朴素贝叶斯和J48是使用给定数据集进行准确且高效登革热预测的最合适算法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。