[論文レビュー] Likely to stop? Predicting Stopout in Massive Open Online Courses
本稿では、6.002x MOOCデータセットを用いて、25以上の特徴量と10,000体の機械学習モデルを活用し、スケーラブルでデータ駆動型の手法を提案する。1週間先の退学予測においてAUCが最大0.95に達し、参加行動および同級生との相互作用の特徴量から強く予測可能なことから、退学は実行可能な問題であると示している。
Understanding why students stopout will help in understanding how students learn in MOOCs. In this report, part of a 3 unit compendium, we describe how we build accurate predictive models of MOOC student stopout. We document a scalable, stopout prediction methodology, end to end, from raw source data to model analysis. We attempted to predict stopout for the Fall 2012 offering of 6.002x. This involved the meticulous and crowd-sourced engineering of over 25 predictive features extracted for thousands of students, the creation of temporal and non-temporal data representations for use in predictive modeling, the derivation of over 10 thousand models with a variety of state-of-the-art machine learning techniques and the analysis of feature importance by examining over 70000 models. We found that stop out prediction is a tractable problem. Our models achieved an AUC (receiver operating characteristic area-under-the-curve) as high as 0.95 (and generally 0.88) when predicting one week in advance. Even with more difficult prediction problems, such as predicting stop out at the end of the course with only one weeks' data, the models attained AUCs of 0.7.
研究の動機と目的
- MOOCにおける学生の退学理由を解明するため、正確な予測モデルを構築すること。
- 現実のMOOCデータを用いて、スケーラブルでエンドツーエンドの予測手法を開発すること。
- 体系的な特徴量工学とモデル分析を通じて、最も予測力の高い学生行動特徴量を同定すること。
- フォーラムやウィキ利用などの協働行動が、継続性予測に果たす役割を調査すること。
- 標準化されたデータスキーマを用いた、異なるMOOCに適用可能な再利用可能でオープンソースのフレームワークを構築すること。
提案手法
- 問題セットの提出、フォーラム活動、ラボ成績など、生のMOOC相互作用ログから25以上の予測特徴量を特徴量工学で抽出した。
- 動的および静的な学生行動を捉えるために、時間的要因を含む表現と含まない表現の両方を構築した。
- 多様なアルゴリズムファミリーをカバーする最新の機械学習技術を用いて、10,000体以上のモデルを訓練した。
- 専門家の直感を超えた教育的知見に基づくインジケータを特定するため、クラウドソーシングを活用した特徴量工学を実施した。
- DCAPおよびDelphiといった大規模な計算プラットフォームを活用し、数百ノードにわたるモデルのトレーニングとハイパーパramータ探索をスケーリングした。
- 70,000体を超えるモデルの分析技術を用いて特徴量の重要度を評価し、退学の主な予測要因を同定した。
実験結果
リサーチクエスチョン
- RQ1学生の相互作用ログから抽出されたどの特徴量が、MOOCにおける退学予測において最も予測力が高いのか?
- RQ21週間分の学生データのみで、正確な退学予測が達成可能か?
- RQ3フォーラムやウィキ参加といった協働行動は、退学予測にどのように影響するか?
- RQ4同級生との比較特徴量(例:パーセンタイル順位)は、予測性能をどの程度向上させるか?
- RQ5異なるMOOCに適用可能なスケーラブルで再利用可能な予測手法を開発可能か?
主な発見
- 退学予測は実行可能な問題であり、1週間先の予測においてAUCが最大0.95に達した。
- 限られたデータでも、1週間分の行動データのみを用いても、最終的な退学予測でAUC 0.7を達成した。
- 学生の問題提出への参加行動に基づく特徴量が最も予測力が高く、本研究で用いられた退学の定義と整合的であった。
- パーセンタイル順位やラボ成績の時間的傾向といった、複雑な同級生比較特徴量は、単純な提出回数よりも予測力が高かった。
- フォーラム投稿の長さは退学予測に有意義であったが、投稿頻度や返信回数の単純なカウントは有意ではなかった。これは、内容の質が量よりも重要であることを示唆している。
- ウィキのような協働メカニズムは、予測力がほとんどなかった。これは、編集頻度よりもフォーラムの内容品質が、より有益なシグナルであることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。