[论文解读] Likely to stop? Predicting Stopout in Massive Open Online Courses
本论文提出了一种可扩展的、数据驱动的方法,利用超过25个工程化特征和在6.002x MOOC数据集上训练的10,000个机器学习模型,预测MOOC中的学生退学情况。当提前一周预测退学时,AUC最高可达0.95,表明退学是一个可预测的问题,且参与度和同伴互动特征具有强大的预测能力。
Understanding why students stopout will help in understanding how students learn in MOOCs. In this report, part of a 3 unit compendium, we describe how we build accurate predictive models of MOOC student stopout. We document a scalable, stopout prediction methodology, end to end, from raw source data to model analysis. We attempted to predict stopout for the Fall 2012 offering of 6.002x. This involved the meticulous and crowd-sourced engineering of over 25 predictive features extracted for thousands of students, the creation of temporal and non-temporal data representations for use in predictive modeling, the derivation of over 10 thousand models with a variety of state-of-the-art machine learning techniques and the analysis of feature importance by examining over 70000 models. We found that stop out prediction is a tractable problem. Our models achieved an AUC (receiver operating characteristic area-under-the-curve) as high as 0.95 (and generally 0.88) when predicting one week in advance. Even with more difficult prediction problems, such as predicting stop out at the end of the course with only one weeks' data, the models attained AUCs of 0.7.
研究动机与目标
- 通过构建准确的预测模型,理解MOOC中学生退学的原因。
- 利用真实世界MOOC数据,开发一种可扩展的、端到端的退学预测方法。
- 通过系统化的特征工程和模型分析,识别最具预测力的学生行为特征。
- 探讨协作行为(如论坛和维基使用)在预测学习持续性中的作用。
- 创建一个可重用的开源框架,适用于基于标准化数据模式的跨MOOC退学预测。
提出的方法
- 从原始MOOC交互日志中工程化了超过25个预测特征,包括习题集提交、论坛活动和实验表现。
- 创建了时间性和非时间性数据表示,以捕捉学生行为的动态与静态特征。
- 使用最先进的机器学习技术,在多种算法族中训练了超过10,000个模型。
- 采用众包特征工程,识别出超越专家直觉的、具有教育意义的高影响力指标。
- 利用大规模计算平台(DCAP和Delphi),在数百个节点上扩展模型训练和超参数探索。
- 应用模型分析技术,评估超过70,000个模型的特征重要性,识别出退学的关键预测因子。
实验结果
研究问题
- RQ1从学生交互日志中提取的哪些特征最能预测MOOC中的退学?
- RQ2仅使用一周的学生数据,能否实现准确的退学预测?
- RQ3协作行为(如论坛和维基参与)如何影响退学预测?
- RQ4同伴比较特征(如百分位排名)在多大程度上提升了预测性能?
- RQ5能否为不同MOOC开发一种可扩展、可重用的退学预测方法?
主要发现
- 退学预测是一个可处理的问题,当提前一周预测时,模型AUC最高可达0.95。
- 即使数据有限,仅使用一周行为数据,在课程结束时预测退学的AUC也能达到0.7。
- 基于学生习题提交参与度的特征最具预测力,与本研究中退学的定义一致。
- 复杂的同伴比较特征(如百分位排名和实验成绩的时间趋势)比简单的提交次数更具预测力。
- 论坛帖子长度可预测退学,但原始发帖频率和回复次数则不能,表明内容质量比数量更重要。
- 协作机制(如维基)的预测能力较弱,表明论坛内容质量比编辑频率更具信息量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。