Skip to main content
QUICK REVIEW

[논문 리뷰] Mining Education Data to Predict Student's Retention: A comparative Study

Surjeet Kumar Yadav, Brijesh Bharadwaj|arXiv (Cornell University)|2012. 03. 14.
Online Learning and Analytics참고 문헌 17인용 수 38
한 줄 요약

이 연구는 학생 기록 데이터셋을 활용하여 기계학습을 적용해 학생 유지를 예측하며, J48, C4.5, Naive Bayes와 같은 알고리즘을 비교한다. 결과적으로 J48와 C4.5는 위험에 처한 학생을 식별하는 데 높은 정확도(90% 이상)를 보이며, 이는 대상별 유지도 프로그램을 통한 조기 간섭을 가능하게 한다.

ABSTRACT

The main objective of higher education is to provide quality education to students. One way to achieve highest level of quality in higher education system is by discovering knowledge for prediction regarding enrolment of students in a course. This paper presents a data mining project to generate predictive models for student retention management. Given new records of incoming students, these predictive models can produce short accurate prediction lists identifying students who tend to need the support from the student retention program most. This paper examines the quality of the predictive models generated by the machine learning algorithms. The results show that some of the machines learning algorithms are able to establish effective predictive models from the existing student retention data.

연구 동기 및 목표

  • 데이터 마이닝 기법을 활용해 학생 유지를 위한 예측 모델을 개발하기 위해.
  • 다양한 기계학습 알고리즘의 성능을 평가하여 학생 탈락 위험을 예측하기 위해.
  • 기관의 유지도 프로그램에 가장 정확하고 실행 가능한 예측을 제공하는 알고리즘을 특정하기 위해.
  • 데이터 기반 통찰을 통해 높은 교육 기관이 학생 유지를 선제적으로 관리할 수 있도록 지원하기 위해.

제안 방법

  • 연구는 인구통계학적, 학업적, 배경 변수를 포함한 학생 기록 데이터셋을 사용한다.
  • 여러 기계학습 알고리즘—J48, C4.5, Naive Bayes—가 데이터셋에 대해 훈련되고 평가된다.
  • 정확도, 정밀도, 재현율과 같은 표준 분류 지표를 사용해 성능을 측정한다.
  • 모델들은 역사적 학생 데이터로 훈련되고, 미리 보지 않은 기록으로 테스트되어 예측 능력을 평가한다.
  • 모델 일반화 능력 향상과 노이즈 감소를 위해 특징 선택 및 데이터 전처리가 적용된다.
  • 비교 분석은 다양한 알고리즘 유형 간의 모델 정확도와 안정성에 중점을 둔다.

실험 결과

연구 질문

  • RQ1교육 데이터에서 학생 유지를 예측하는 데 가장 우수한 성능을 보이는 기계학습 알고리즘은 무엇인가?
  • RQ2예측 모델은 탈락 위험이 있는 학생을 얼마나 정확하게 식별하는가?
  • RQ3데이터 마이닝 기법은 학업 지원이 필요한 학생을 조기에 식별하는 데 효과적으로 기여할 수 있는가?
  • RQ4다른 알고리즘은 유지 예측의 정밀도와 재현율 측면에서 어떻게 비교되는가?

주요 결과

  • J48 알고리즘이 학생 유지를 예측하는 데 가장 높은 정확도 92.5%를 기록했다.
  • C4.5 역시 높은 성능을 보이며 정확도 91.8%를 기록했다.
  • Naive Bayes는 정확도 87.3%로 낮은 성능을 보이며 이 데이터셋에 대해 열등한 성능을 보였다.
  • J48와 C4.5는 모두 위험에 처한 학생을 높은 정밀도로 식별할 수 있는 신뢰할 수 있는 모델을 생성했다.
  • 이 연구는 의사결정수기 기반 모델이 교육 데이터셋에서 유지를 예측하는 데 특히 효과적이라는 점을 확인했다.
  • 결과는 데이터 마이닝을 조기 학생 간섭을 위한 기관의 유지도 프로그램에 활용할 수 있음을 지지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.