Skip to main content
QUICK REVIEW

[論文レビュー] Predicting Student Dropout in Higher Education

Lovenoor Aulck, Nishant Velagapudi|arXiv (Cornell University)|Jun 20, 2016
Online Learning and Analytics参考文献 16被引用数 48
ひとこと要約

本研究では、ワシントン大学の32,538名の学部学生の大型かつ匿名化されたデータセットを用いて、高等教育機関における学生の退学を予測する。正則化ロジスティック回帰が優れた予測性能を示し、コア科目(数学、英語、化学、心理学)のGPAと受講時期が、退学の早期予測要因として顕著に浮き彫りになった。

ABSTRACT

Each year, roughly 30% of first-year students at US baccalaureate institutions do not return for their second year and over $9 billion is spent educating these students. Yet, little quantitative research has analyzed the causes and possible remedies for student attrition. Here, we describe initial efforts to model student dropout using the largest known dataset on higher education attrition, which tracks over 32,500 students' demographics and transcript records at one of the nation's largest public universities. Our results highlight several early indicators of student attrition and show that dropout can be accurately predicted even when predictions are based on a single term of academic transcript data. These results highlight the potential for machine learning to have an impact on student retention and success while pointing to several promising directions for future work.

研究の動機と目的

  • 大規模で多様なデータセットを用いて、学部学生の退学の早期予測要因を特定すること。
  • 初学期の学業成績データのみを用いて、機械学習モデルを構築・評価し、退学を予測すること。
  • 行動可能な早期警告サインを同定することで、政策的介入を支援すること。
  • 異なる学生グループにおける退学傾向の時間的変化とその予測的価値を調査すること。

提案手法

  • 1998年から2006年までのワシントン大学のレジストラーサービスのデータベースから得た匿名化・偽名化されたデータ(デモグラフィック情報、SAT/ACTスコア、完全な成績記録を含む)。
  • クラスの不均衡を是正するため、非修了者(多数クラス)からランダムサンプリングを行い、32,538名のバランスの取れたデータセットを構築。
  • 正則化ロジスティック回帰、ランダムフォレスト、勾配ブースティングを用いて、初学期の成績とデモグラフィック特徴量に基づき退学を予測。
  • 正解率とAUCスコアを用いてモデルの性能を評価し、予測力に基づいて特徴量の重要度を順位付け。
  • 退学の時期を回帰モデルで予測し、退学までの受講学期数の予測誤差を均差二乗誤差(RMSE)で測定。
  • 特徴量工学の実施と、今後のディープラーニングモデル(例:RNN、CNN)の活用を検討し、手作業による特徴量の依存度を低減すること。

実験結果

リサーチクエスチョン

  • RQ1多様な学部学生の集団において、初学期のどの要因が退学の予測に最も強く関連しているか?
  • RQ2初学期の成績記録とデモグラフィック情報のみを用いて、学生の退学をどの程度正確に予測できるか?
  • RQ3時間的要因(例:入学年、生年月日、初学期の受講時期)は、退学予測にどのような役割を果たすか?
  • RQ4初学期のデータから、退学までの受講学期数を意味のある正確性で予測できるか?
  • RQ5異なる学生サブグループ(例:4年制大学からの転入者、人種/民族、居住地状況)における退学パターンはどのように異なるか?

主な発見

  • 正則化ロジスティック回帰が、テストした3つのモデルの中で最高の予測正確性(54.02%)を示し、ランダムフォレストや勾配ブースティングを上回った。
  • 数学、英語、化学、心理学の授業におけるGPAが、個々の予測要因として最も強力であり、正確性は51.79%から53.49%の範囲にのっていた。
  • 初学期の入学年と生年月日が強い予測要因であった。1998年度入学者の退学率27.6%から2006年度入学者の20.2%へと全体の退学率が低下傾向にあったことから、時間的トレンドが顕著に現れた。
  • 初学期の受講時期(例:秋季、冬季)が有意な予測要因であった。正確性は53.49%で、入学時期の違いが留任に影響を与える可能性を示唆した。
  • 退学までの受講学期数の予測では、RMSEが5.03であったが、最も正確性が低かった上位10%の予測を除くと、RMSEは3.74に改善した。
  • バランスの取れたデータセットにおける全体の修了率は50.00%であったが、顕著な格差が見られた。4年制大学からの転入者では42.82%、アフリカ系アメリカン学生では40.61%であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。