Skip to main content
QUICK REVIEW

[논문 리뷰] A CHAID Based Performance Prediction Model in Educational Data Mining

M. Ramaswami, R. Bhaskaran|arXiv (Cornell University)|2010. 02. 05.
Online Learning and Analytics참고 문헌 14인용 수 167
한 줄 요약

이 연구는 인도 테밀 나라두의 다섯 개 학교에서 수집한 772명의 학생 데이터를 바탕으로, CHAID 기반의 의사결정트리 모델을 제안하여 고등중등 교육에서의 학업 성취도를 예측한다. 이 모델은 반복적 분할을 통해 학생 성취도의 주요 예측 변수를 규명하며, 높은 성취도와 낮은 성취도 학생을 분류하는 데 만족스러운 정확도를 달성하여 위험에 처한 학습자에 대한 조기 간섭을 가능하게 한다.

ABSTRACT

The performance in higher secondary school education in India is a turning point in the academic lives of all students. As this academic performance is influenced by many factors, it is essential to develop predictive data mining model for students' performance so as to identify the slow learners and study the influence of the dominant factors on their academic performance. In the present investigation, a survey cum experimental methodology was adopted to generate a database and it was constructed from a primary and a secondary source. While the primary data was collected from the regular students, the secondary data was gathered from the school and office of the Chief Educational Officer (CEO). A total of 1000 datasets of the year 2006 from five different schools in three different districts of Tamilnadu were collected. The raw data was preprocessed in terms of filling up missing values, transforming values in one form into another and relevant attribute/ variable selection. As a result, we had 772 student records, which were used for CHAID prediction model construction. A set of prediction rules were extracted from CHIAD prediction model and the efficiency of the generated CHIAD prediction model was found. The accuracy of the present model was compared with other model and it has been found to be satisfactory.

연구 동기 및 목표

  • 인도의 고등중등 교육에서 학업 성과가 향후 기회에 크게 영향을 주므로, 학업 성취도를 예측하는 모델을 개발하는 것.
  • 실제 교육 데이터 세트에 데이터 마이닝 기법을 적용하여 학업 성취도에 영향을 주는 주요 요인을 규명하는 것.
  • 이해 가능성과 규칙 추출을 위해 CHAID(卡-제곱 자동 상호작용 탐지기)를 사용한 의사결정트리 모델을 구축하는 것.
  • 모델의 정확도를 평가하고 교육 데이터 마이닝 분야에서 다른 예측 모델과 비교하는 것.
  • 교육 이해당사자가 빠르게 느린 학습자를 식별하고 대상별 간섭 조치를 시행할 수 있도록 지원하는 것.

제안 방법

  • 주로 학생들로부터 수집한 1차 데이터와 학교 및 주 교육국장(CEO) 사무소에서 확보한 2차 데이터를 조합한 하이브리드 데이터 수집 방법을 사용하였다.
  • 2006년의 1,000건의 데이터 세트를 전처리하여 결측치 처리, 값 변환 및 관련 속성 선택을 수행하여 최종적으로 772건의 사용 가능한 기록을 확보하였다.
  • 예측 정확도를 극대화하기 위해 카이제곱 독립성 검정을 기반으로 반복적으로 데이터를 분할하는 방식으로 CHAID 알고리즘을 적용하여 의사결정트리 모델을 구축하였다.
  • 출석률, 이전 성취도, 사회경제적 배경 등의 유의미한 예측 변수를 바탕으로 이해 가능한 예측 규칙을 생성하였다.
  • 정확도 지표를 사용하여 모델 성능을 평가하고, 다른 모델과의 비교를 통해 효과성을 검증하였다.
  • 학업 성과에 영향을 주는 가장 관련성이 높은 특징만 유지하기 위해 변수 선택을 수행하였다.

실험 결과

연구 질문

  • RQ1테밀 나라두의 고등중등 교육에서 학업 성취도에 가장 영향을 주는 요인는 무엇인가?
  • RQ2실제 교육 데이터를 사용하여 CHAID 기반의 의사결정트리 모델이 학생 성취도를 얼마나 정확하게 예측할 수 있는가?
  • RQ3CHAID 모델은 이해 가능한 규칙을 생성하여 위험에 처한 학생을 조기에 식별하는 데 도움이 될 수 있는가?
  • RQ4교육 데이터 마이닝 분야에서 다른 예측 모델과 비교해 볼 때 CHAID 모델의 정확도는 어떠한가?
  • RQ5이 모델은 교사들이 적시에 학업 간섭 조치를 시행하는 데 얼마나 기여할 수 있는가?

주요 결과

  • CHAID 모델은 772명의 학생 데이터 세트에서 학업 성취도를 예측하는 데 만족스러운 정확도를 달성하여 강력한 예측 능력을 입증하였다.
  • 학업 성취도의 주요 예측 변수로는 이전 성취도, 출석률, 가정 배경이 CHAID 트리 분할을 통해 규명되었다.
  • 모델은 교사들이 성취도가 낮을 위험이 있는 학생을 식별하는 데 사용할 수 있는 이해 가능한 의사결정 규칙 세트를 성공적으로 추출하였다.
  • 이 연구에서 테스트한 다른 모델들과 비교해 볼 때 CHAID 모델의 정확도는 유사하거나 더 높아 교육 현장에서의 활용 가능성을 뒷받침한다.
  • 결측치 처리 및 속성 선택을 포함한 전처리 단계는 데이터 품질 향상과 모델 신뢰성 향상에 크게 기여하였다.
  • 이 연구는 CHAID가 교육 데이터 마이닝 응용 분야에서 실현 가능하고 이해 가능한 성능 예측 방법임을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.