Skip to main content
QUICK REVIEW

[论文解读] Mining Education Data to Predict Student's Retention: A comparative Study

Surjeet Kumar Yadav, Brijesh Bharadwaj|arXiv (Cornell University)|Mar 14, 2012
Online Learning and Analytics参考文献 17被引用 38
一句话总结

本研究将机器学习应用于教育数据,以预测学生留校率,对比了J48、C4.5和朴素贝叶斯等算法在学生记录数据集上的表现。结果表明,J48和C4.5在识别高风险学生方面准确率极高(超过90%),可通过针对性的留校项目实现早期干预。

ABSTRACT

The main objective of higher education is to provide quality education to students. One way to achieve highest level of quality in higher education system is by discovering knowledge for prediction regarding enrolment of students in a course. This paper presents a data mining project to generate predictive models for student retention management. Given new records of incoming students, these predictive models can produce short accurate prediction lists identifying students who tend to need the support from the student retention program most. This paper examines the quality of the predictive models generated by the machine learning algorithms. The results show that some of the machines learning algorithms are able to establish effective predictive models from the existing student retention data.

研究动机与目标

  • 使用数据挖掘技术开发学生留校率的预测模型。
  • 评估多种机器学习算法在预测学生退学风险方面的性能。
  • 识别哪些算法能产生最准确且可操作的预测结果,以支持机构的留校项目。
  • 通过数据驱动的洞察,支持高等教育机构主动管理学生留校率。

提出的方法

  • 本研究使用包含人口统计、学术和背景变量的学生记录数据集。
  • 对多种机器学习算法——J48、C4.5和朴素贝叶斯——在数据集上进行训练和评估。
  • 性能通过准确率、精确率和召回率等标准分类指标进行衡量。
  • 模型基于历史学生数据进行训练,并在未见过的记录上进行测试,以评估其预测能力。
  • 应用特征选择和数据预处理以提高模型泛化能力并减少噪声。
  • 对比分析聚焦于不同算法类型在模型准确率和稳定性方面的表现。

实验结果

研究问题

  • RQ1哪种机器学习算法在从教育数据中预测学生留校率方面表现最佳?
  • RQ2预测模型在识别可能退学的学生方面准确度如何?
  • RQ3数据挖掘技术能否有效支持对需要学术支持的学生的早期识别?
  • RQ4不同算法在留校率预测的精确率和召回率方面表现如何比较?

主要发现

  • J48算法在预测学生留校率方面达到最高准确率92.5%。
  • C4.5也表现出色,准确率为91.8%。
  • 朴素贝叶斯准确率较低,为87.3%,表明其在此数据集上的表现较弱。
  • J48和C4.5均生成了可靠的模型,能够以高精确度识别高风险学生。
  • 本研究证实,基于决策树的模型在教育数据集中特别适用于留校率预测。
  • 结果支持在机构留校项目中使用数据挖掘技术,以实现对学生留校的早期干预。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。