QUICK REVIEW

[論文レビュー] A CHAID Based Performance Prediction Model in Educational Data Mining

M. Ramaswami, R. Bhaskaran|arXiv (Cornell University)|Feb 5, 2010

Online Learning and Analytics参考文献 14被引用数 167

ひとこと要約

本研究では、タミル・ナドゥの5つの学校に在籍する772名の学生のデータを用いて、インドの高等学校教育における学業成績を予測するCHAIDベースの意思決定木モデルを提案する。このモデルは再帰的分割を用いて学生の成績に影響を与える要因を特定し、成績が優れているか低いかを分類する上で満足できる正確性を達成しており、リスクにさらされている学習者に対する早期干渉を可能にする。

ABSTRACT

The performance in higher secondary school education in India is a turning point in the academic lives of all students. As this academic performance is influenced by many factors, it is essential to develop predictive data mining model for students' performance so as to identify the slow learners and study the influence of the dominant factors on their academic performance. In the present investigation, a survey cum experimental methodology was adopted to generate a database and it was constructed from a primary and a secondary source. While the primary data was collected from the regular students, the secondary data was gathered from the school and office of the Chief Educational Officer (CEO). A total of 1000 datasets of the year 2006 from five different schools in three different districts of Tamilnadu were collected. The raw data was preprocessed in terms of filling up missing values, transforming values in one form into another and relevant attribute/ variable selection. As a result, we had 772 student records, which were used for CHAID prediction model construction. A set of prediction rules were extracted from CHIAD prediction model and the efficiency of the generated CHIAD prediction model was found. The accuracy of the present model was compared with other model and it has been found to be satisfactory.

研究の動機と目的

インドの高等学校教育における学業成績の予測モデルを開発すること。ここでの学業成績は将来の機会に顕著に影響を与える。
実世界の教育データセットにデータマイニング技術を適用することで、学業成績に影響を与える主な要因を同定すること。
解釈可能性とルール抽出を可能にするために、CHAID（カイ二乗自動相互作用検出器）を用いた意思決定木モデルを構築すること。
教育データマイニングにおけるモデルの正確性を評価し、他の予測モデルと比較すること。
教育関係者が遅れをとっている学習者を早期に特定し、的確な干渉策を講じることを支援すること。

提案手法

主に学生から得た一次データと、学校および首席教育責任者（CEO）事務所から得た二次データを組み合わせたハイブリッドデータ収集手法が用いられた。
2006年の1,000件の記録からなるデータセットは、欠損値の処理、値の変換、関連する属性の選択によって前処理され、最終的に772件の利用可能な記録が得られた。
予測の正確性を最大化するために、カイ二乗独立性検定に基づく再帰的分割を用いて、CHAIDアルゴリズムを適用して意思決定木モデルを構築した。
出席状況、過去の成績、社会経済的要因などの有意な予測変数に基づいて、解釈可能な予測ルールが生成された。
正確性指標を用いてモデルの性能を評価し、他のモデルと比較することで、その有効性を検証した。
学業成績に影響を与える最も関連性の高い特徴量のみを保持するための変数選択が実施された。

実験結果

リサーチクエスチョン

RQ1タミル・ナドゥの高等学校教育における学業成績に最も顕著に影響を与える要因は何か？
RQ2実際の教育データを用いて、CHAIDベースの意思決定木モデルが学生の成績をどれほど正確に予測できるか？
RQ3CHAIDモデルは、リスクにさらされている学生の早期同定を支援する解釈可能なルールを生成できるか？
RQ4教育データマイニングにおいて、CHAIDモデルは他の予測モデルと比較してどれほど正確か？
RQ5このモデルは教育者が的確な学業的干渉を実施するのをどの程度支援できるか？

主な発見

CHAIDモデルは、772名の学生データセットにおいて、学生の成績を予測する上で満足できる正確性を示し、強力な予測能力を有していることが確認された。
学業成績に影響を与える主な予測要因として、過去の成績、出席状況、家族背景がCHAIDツリーの分割から同定された。
モデルは、成績が低くなるおそれがある生徒を特定するために教育者が利用できる解釈可能な意思決定ルールのセットを効果的に抽出した。
本研究でテストされた他のモデルと比較して、CHAIDモデルの正確性は同等またはそれ以上であり、教育現場での応用が有効であることが裏付けられた。
欠損値の処理や属性選択を含む前処理ステップが、データ品質とモデルの信頼性を顕著に向上させた。
本研究は、CHAIDが教育データマイニングの応用において実用的で解釈可能な手法であることを確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。