Skip to main content
QUICK REVIEW

[論文レビュー] Mining Education Data to Predict Student's Retention: A comparative Study

Surjeet Kumar Yadav, Brijesh Bharadwaj|arXiv (Cornell University)|Mar 14, 2012
Online Learning and Analytics参考文献 17被引用数 38
ひとこと要約

本研究では、教育データを用いて機械学習を適用し、学生の留任を予測する。J48、C4.5、ナイーブベイズなどのアルゴリズムを、学生記録のデータセット上で比較した。結果として、J48とC4.5は、リスクを有する学生を特定するにあたり90%を超える高い正確性(正確度)を達成しており、ターゲットを絞った留任プログラムによる早期干渉が可能である。

ABSTRACT

The main objective of higher education is to provide quality education to students. One way to achieve highest level of quality in higher education system is by discovering knowledge for prediction regarding enrolment of students in a course. This paper presents a data mining project to generate predictive models for student retention management. Given new records of incoming students, these predictive models can produce short accurate prediction lists identifying students who tend to need the support from the student retention program most. This paper examines the quality of the predictive models generated by the machine learning algorithms. The results show that some of the machines learning algorithms are able to establish effective predictive models from the existing student retention data.

研究の動機と目的

  • データマイニング技術を用いて学生留任の予測モデルを開発すること。
  • 複数の機械学習アルゴリズムが、学生の退学リスクを予測する際にどの程度の性能を示すかを評価すること。
  • 機関の留任プログラムに役立つ最も正確で実行可能な予測を生成するアルゴリズムを特定すること。
  • データドリブンなイン사이트を提供することで、高等教育機関が学生の留任を能動的に管理できるように支援すること。

提案手法

  • 本研究では、人種的背景、学業成績、および背景変数を含む学生記録のデータセットを用いた。
  • 複数の機械学習アルゴリズム—J48、C4.5、およびナイーブベイズ—をデータセット上で訓練および評価した。
  • 性能は、正確度、適合率、再現率などの標準的な分類指標を用いて測定した。
  • モデルは歴史的データで訓練され、未知の記録でテストされており、予測能力を評価した。
  • モデルの汎化性能を向上させ、ノイズを低減するために特徴選択とデータ前処理を実施した。
  • 比較分析は、異なるアルゴリズムタイプにおけるモデルの正確度と安定性に焦点を当てた。

実験結果

リサーチクエスチョン

  • RQ1どの機械学習アルゴリズムが教育データから学生の留任を予測する際に最も優れた性能を示すか?
  • RQ2予測モデルは、退学のリスクがある学生をどの程度の正確さで特定できるか?
  • RQ3データマイニング技術は、学業的支援が必要な学生の早期特定に効果的に機能するか?
  • RQ4異なるアルゴリズムは、留任予測において適合率と再現率の観点でどのように比較できるか?

主な発見

  • J48アルゴリズムは、学生留任予測において92.5%の最高正確度を達成した。
  • C4.5も高い性能を示し、正確度が91.8%であった。
  • ナイーブベイズは正確度が87.3%にとどまり、このデータセットでは性能がやや劣っていた。
  • J48とC4.5の両方とも、リスクを有する学生を高い適合率で特定できる信頼性の高いモデルを生成した。
  • 本研究では、意思決定木に基づくモデルが教育データセットにおける留任予測に特に効果的であることが確認された。
  • 結果から、データマイニングを活用することで、早期の学生支援を目的とした機関の留任プログラムに有効であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。