QUICK REVIEW

[논문 리뷰] Predicting Student Dropout in Higher Education

Lovenoor Aulck, Nishant Velagapudi|arXiv (Cornell University)|2016. 06. 20.

Online Learning and Analytics참고 문헌 16인용 수 48

한 줄 요약

이 연구는 워싱턴 대학교의 32,538명의 학부생으로 구성된 대규모 비식별 데이터셋을 활용하여 높은 교육에서의 학생 이탈을 예측한다. 정규화된 로지스틱 회귀 모델이 뛰어난 예측 성능을 보였으며, 핵심 과목(수학, 영어, 화학, 심리학)의 학점 평균(GPA)과 수강 시기 등이 이탈의 초기 징후로 뚜렷하게 드러났다.

ABSTRACT

Each year, roughly 30% of first-year students at US baccalaureate institutions do not return for their second year and over $9 billion is spent educating these students. Yet, little quantitative research has analyzed the causes and possible remedies for student attrition. Here, we describe initial efforts to model student dropout using the largest known dataset on higher education attrition, which tracks over 32,500 students' demographics and transcript records at one of the nation's largest public universities. Our results highlight several early indicators of student attrition and show that dropout can be accurately predicted even when predictions are based on a single term of academic transcript data. These results highlight the potential for machine learning to have an impact on student retention and success while pointing to several promising directions for future work.

연구 동기 및 목표

주요 공공 대학의 대규모 이질적 데이터셋을 활용하여 학생 이탈의 초기 예측 요소를 특정하기.
첫 학기 학업 데이터만을 사용하여 기계학습 모델을 개발하고 평가하기.
실행 가능한 조기 경고 신호를 특정하여 정책적 조치를 뒷받침하기.
다양한 학생 집단에서의 이탈 추세와 그 예측가능성에 대한 시간적 경향 탐색하기.

제안 방법

1998~2006년 기간 동안 워싱턴 대학교 등록자 데이터베이스에서 확보한 비식별화 및 가명처리된 데이터를 활용함(인구통계학적 정보, SAT/ACT 점수, 전 학업 성적 기록 포함).
클래스 불균형 문제를 해결하기 위해 비완료자 집단(다수 클래스)으로부터 무작위 샘플링을 통해 32,538명의 균형 잡힌 데이터셋을 구성함.
정규화된 로지스틱 회귀, 랜덤 포레스트, 기울기 부스팅 모델을 적용하여 첫 학기 성과 및 인구통계학적 특징을 기반으로 이탈 여부를 예측함.
정확도와 AUC 지표를 사용하여 모델 성능을 평가하였으며, 특징 중요도는 예측 능력 기반으로 순위 매김함.
이탈 시점 예측을 위해 회귀 모델을 활용하였으며, 성능은 이탈 전 수강한 학기 수에 대한 제곱근 평균 제곱오차(RMSE)로 측정함.
특징 공학 및 향후 딥러닝 모델(예: RNN, CNN)의 활용 가능성을 탐색하여 수작업으로 만든 특징에 대한 의존도를 줄임.

실험 결과

연구 질문

RQ1이질적인 학부생 집단에서 첫 학기 동안의 어떤 초기 지표가 학생 이탈을 가장 강하게 예측하는가?
RQ2첫 학기 성적 및 인구통계학적 자료만을 사용하여 학생 이탈을 얼마나 정확하게 예측할 수 있는가?
RQ3시간적 요소(예: 입학 연도, 출생 연도, 첫 학기 수강 시기 등)는 이탈 예측에 어떤 역할을 하는가?
RQ4첫 학기 자료만으로 이탈 시점(이탈 전 수강한 학기 수)을 의미 있는 정확도로 예측할 수 있는가?
RQ5이탈 패턴은 전공 이탈자, 인종/민족, 거주지 상태 등 다양한 학생 하위집단 간에 어떻게 다를까?

주요 결과

정규화된 로지스틱 회귀 모델이 테스트된 세 모델 중에서 가장 높은 예측 정확도(54.02%)를 기록하여 랜덤 포레스트 및 기울기 부스팅 모델을 능가함.
수학, 영어, 화학, 심리학 수업의 학점 평균이 가장 강력한 개별 예측 변수로 나타났으며, 정확도는 51.79%에서 53.49% 사이였음.
첫 입학 연도와 출생 연도가 강력한 예측 변수였으며, 이는 전체 이탈률이 1998년 졸업생(27.6%)에서 2006년 졸업생(20.2%)으로 감소하는 추세를 반영함.
첫 학기 수강 시기(예: 가을학기, 봄학기)가 유의미한 예측 변수였으며, 정확도는 53.49%로 입학 시기의 영향이 유지를 결정짓는 데 기여함.
이탈 전 수강한 학기 수를 예측한 결과 RMSE는 5.03이었으며, 가장 정확도가 낮은 10%의 예측을 제외한 경우 RMSE는 3.74로 향상됨.
균형 잡힌 데이터셋에서의 총 졸업률은 50.00%였으며, 뚜렷한 격차가 있었음: 4년제 대학 전공 이탈자 42.82%, 아프리카계 미국인 학생 40.61%

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.