[论文解读] Predicting Student Dropout in Higher Education
本研究利用来自华盛顿大学的32,538名本科生的大型匿名数据集,预测高等教育中的学生辍学情况,基于人口统计学和第一学期的成绩单数据。正则化逻辑回归模型表现出较强的预测性能,其中核心课程(数学、英语、化学、心理学)的GPA以及选课时间成为预测辍学的关键早期指标。
Each year, roughly 30% of first-year students at US baccalaureate institutions do not return for their second year and over $9 billion is spent educating these students. Yet, little quantitative research has analyzed the causes and possible remedies for student attrition. Here, we describe initial efforts to model student dropout using the largest known dataset on higher education attrition, which tracks over 32,500 students' demographics and transcript records at one of the nation's largest public universities. Our results highlight several early indicators of student attrition and show that dropout can be accurately predicted even when predictions are based on a single term of academic transcript data. These results highlight the potential for machine learning to have an impact on student retention and success while pointing to several promising directions for future work.
研究动机与目标
- 利用一所主要公立大学的大型异质数据集,识别学生辍学的早期预测指标。
- 开发并评估仅使用第一学期学术数据的机器学习模型,以预测学生辍学。
- 通过识别可操作的早期预警信号,为政策干预提供依据。
- 探索不同学生群体中辍学的时间趋势及其预测价值。
提出的方法
- 使用华盛顿大学注册办公室数据库(1998–2006年)中的去标识化、伪匿名化数据,包括人口统计学信息、SAT/ACT成绩以及完整的成绩单记录。
- 通过从多数类(未完成者)中随机抽样,构建了一个包含32,538名学生的平衡数据集,以解决类别不平衡问题。
- 应用正则化逻辑回归、随机森林和梯度提升模型,基于第一学期表现和人口统计学特征预测辍学。
- 使用准确率和AUC指标评估模型性能,并根据预测能力对特征重要性进行排序。
- 使用回归模型预测辍学时间,通过在辍学前的季度数上的均方根误差(RMSE)衡量性能。
- 进行了特征工程,并探讨了未来使用深度学习模型(如RNNs、CNNs)以减少对手工特征的依赖。
实验结果
研究问题
- RQ1在异质性的本科学生群体中,第一学期的哪些早期指标最能预测学生辍学?
- RQ2仅使用第一学期的成绩单和人口统计学数据,能否准确预测学生辍学?
- RQ3时间因素(如入学年份、出生年份、第一学期入学时间)在预测辍学中起到什么作用?
- RQ4能否从第一学期数据中,以有意义的准确度预测辍学发生的时间(即辍学前的季度数)?
- RQ5不同学生子群体(如转学生、种族/族裔、居住地状态)的辍学模式有何差异?
主要发现
- 在测试的三种模型中,正则化逻辑回归取得了最高的预测准确率(54.02%),优于随机森林和梯度提升模型。
- 数学、英语、化学和心理学课程的GPA是其中最强的单一预测因子,准确率在51.79%至53.49%之间。
- 首次入学年份和出生年份是强有力的预测因子,反映出整体辍学率从1998届的27.6%下降至2006届的20.2%的趋势。
- 第一学期入学时间(如秋季、冬季)是显著预测因子,准确率达53.49%,表明入学时间影响学生留存率。
- 预测辍学前的季度数的RMSE为5.03,当排除最不准确的10%预测时,RMSE降低至3.74。
- 在平衡数据集中,总体毕业率为50.00%,存在显著差异:来自四年制学院的转学生毕业率为42.82%,非裔美国学生毕业率为40.61%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。