QUICK REVIEW

[论文解读] Towards Feature Engineering at Scale for Data from Massive Open Online Courses

Kalyan Veeramachaneni, Una-May O’Reilly|arXiv (Cornell University)|Jul 20, 2014

Online Learning and Analytics参考文献 5被引用 35

一句话总结

本文提出了一种众包的、可扩展的MOOC数据特征工程方法，用于预测学习者退课行为，利用人类洞察力生成复杂、多模态的特征，其性能优于自定义特征。关键结果表明，众包特征——尤其是结合多种交互模式的关联性与纵向特征——在不同学习者参与度群体中均显著提升了预测性能。

ABSTRACT

We examine the process of engineering features for developing models that improve our understanding of learners' online behavior in MOOCs. Because feature engineering relies so heavily on human insight, we argue that extra effort should be made to engage the crowd for feature proposals and even their operationalization. We show two approaches where we have started to engage the crowd. We also show how features can be evaluated for their relevance in predictive accuracy. When we examined crowd-sourced features in the context of predicting stopout, not only were they nuanced, but they also considered more than one interaction mode between the learner and platform and how the learner was relatively performing. We were able to identify different influential features for stop out prediction that depended on whether a learner was in 1 of 4 cohorts defined by their level of engagement with the course discussion forum or wiki. This report is part of a compendium which considers different aspects of MOOC data science and stop out prediction.

研究动机与目标

为解决MOOC数据科学中有效特征工程的挑战，其中人类洞察力至关重要但尚未被充分利用。
探索众包特征提案是否能产生比研究人员单独生成的特征更具预测性与细致性的特征。
评估不同类型的特征——尤其是复杂、关联性与纵向特征——对不同学习者参与度群体中退课预测的影响。
开发一种可扩展、可重用的特征生成与共享框架，适用于不同MOOC平台，采用标准化数据模式。
证明整合相对表现与多模态交互（如视频、论坛、提交作业）的特征比孤立指标更具预测力。

提出的方法

通过基于网络的平台众包特征提案，从专家、教师、学生和研究人员处收集多样化、基于人类洞察的特征创意。
设计标准化数据模式，以实现在不同MOOC平台（如edX、Coursera）之间复用特征生成脚本。
通过整合来自多种交互模式（如视频参与、论坛活动、作业提交、同伴互动）的数据，构建复杂、关联性特征。
生成追踪学习者随时间行为的纵向特征，包括相对表现度量（例如，学习者与同伴的对比）。
通过监督机器学习的退课预测建模评估特征相关性，性能通过模型准确率与特征重要性衡量。
将学习者划分为四个参与度群体（如被动合作者、论坛参与者）以评估群体特定的特征相关性与模型性能。

实验结果

研究问题

RQ1众包特征提案是否能产生比自生成特征更具预测力的MOOC学习者退课预测模型？
RQ2在基于论坛与维基参与度定义的不同学习者参与度群体中，最具影响力的特征有何差异？
RQ3相较于孤立的简单指标，结合视频、提交与协作行为的复杂多模态特征在多大程度上提升了预测准确性？
RQ4关联性特征（如与同伴的相对表现）在不同学习者类型中的退课预测中起到何种作用？
RQ5标准化特征生成脚本在不同MOOC平台与数据模式之间复用的潜力有多大？

主要发现

在所有四个参与度群体中，众包特征显著优于自提案、自提取的特征，在预测学习者退课方面表现更优。
不同群体最具有预测力的特征集不同：例如，对被动合作者而言，作业完成情况与截止日前提交时间是关键因素；而对协作型学习者而言，实验成绩趋势更为重要。
对于仅使用论坛的学习者，其论坛帖子的长度是退课的强预测因子，表明内容深度可作为行为信号。
最具影响力的特征是复杂且派生的，整合了来自多种交互模式（如视频、提交、论坛）的数据，并结合了与同伴的相对比较。
关联性与统计摘要特征——如相对表现与时间趋势——始终比简单计数或时长更具预测力。
本研究证明了标准化、可复用的特征工程框架在可行性与价值上的优势，相关脚本已在edX与Coursera等平台成功测试。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。