Skip to main content
QUICK REVIEW

[논문 리뷰] Likely to stop? Predicting Stopout in Massive Open Online Courses

Colin Taylor, Kalyan Veeramachaneni|arXiv (Cornell University)|2014. 08. 14.
Online Learning and Analytics참고 문헌 35인용 수 131
한 줄 요약

이 논문은 6.002x MOOC 데이터셋을 기반으로 25개 이상의 특징과 10,000개의 기계학습 모델을 사용하여 MOOC에서 학생의 중도 이탈을 예측하기 위한 확장 가능하고 데이터 기반의 방법론을 제안한다. 한 주 전에 중도 이탈을 예측할 경우 AUC가 최대 0.95에 이를 수 있으며, 이는 참여도 및 동료 상호작용 특징에서 강력한 예측력을 가지며 중도 이탈 문제가 해결 가능하다는 것을 보여준다.

ABSTRACT

Understanding why students stopout will help in understanding how students learn in MOOCs. In this report, part of a 3 unit compendium, we describe how we build accurate predictive models of MOOC student stopout. We document a scalable, stopout prediction methodology, end to end, from raw source data to model analysis. We attempted to predict stopout for the Fall 2012 offering of 6.002x. This involved the meticulous and crowd-sourced engineering of over 25 predictive features extracted for thousands of students, the creation of temporal and non-temporal data representations for use in predictive modeling, the derivation of over 10 thousand models with a variety of state-of-the-art machine learning techniques and the analysis of feature importance by examining over 70000 models. We found that stop out prediction is a tractable problem. Our models achieved an AUC (receiver operating characteristic area-under-the-curve) as high as 0.95 (and generally 0.88) when predicting one week in advance. Even with more difficult prediction problems, such as predicting stop out at the end of the course with only one weeks' data, the models attained AUCs of 0.7.

연구 동기 및 목표

  • 정확한 예측 모델을 구축하여 MOOC에서 학생이 왜 중도 이탈하는지 이해하기 위해.
  • 실제 MOOC 데이터를 활용한 확장 가능하고 종단 간(end-to-end)의 중도 이탈 예측 방법론을 개발하기 위해.
  • 체계적인 특징 공학과 모델 분석을 통해 가장 예측력이 높은 학생 행동 특징을 특정하기 위해.
  • 예를 들어 포럼 및 위키 사용과 같은 협업 행동이 지속성 예측에 어떤 역할을 하는지 탐색하기 위해.
  • 표준화된 데이터 스키마를 사용하여 다양한 MOOC에 적용 가능한 재사용 가능한 오픈소스 프레임워크를 만들기 위해.

제안 방법

  • 문제지 제출, 포럼 활동, 실험실 성과 등을 포함한 원시 MOOC 상호작용 로그에서 25개 이상의 예측 특징을 공학하였다.
  • 동적 및 정적 학생 행동을 모두 반영하기 위해 시간적 및 비시간적 데이터 표현 방식을 구축하였다.
  • 다양한 알고리즘 계열을 대상으로 최신 기계학습 기법을 사용하여 10,000개 이상의 모델을 훈련시켰다.
  • 전문가의 직관을 초월한 교육적 인사이트를 가진 지표를 식별하기 위해 공동으로 특징을 공학하였다.
  • 수백 개의 노드를 활용하여 모델 훈련 및 하이퍼파rameter 탐색을 확장하기 위해 대규모 컴퓨팅 플랫폼(DCAP 및 Delphi)을 활용하였다.
  • 70,000개 이상의 모델을 대상으로 모델 분석 기법을 적용하여 중도 이탈의 주요 예측 요소를 규명하였다.

실험 결과

연구 질문

  • RQ1학생 상호작용 로그에서 추출한 어떤 특징이 MOOC에서의 중도 이탈에 가장 예측력이 높은가?
  • RQ2학습자 데이터의 1주일 분량만으로도 정확한 중도 이탈 예측이 가능할 수 있는가?
  • RQ3포럼 및 위키 참여와 같은 협업 행동은 중도 이탈 예측에 어떤 영향을 미치는가?
  • RQ4동료 비교 특징(예: 백분위수 순위)은 예측 성능 향상에 어느 정도 기여하는가?
  • RQ5다양한 MOOC에 적용 가능한 확장 가능하고 재사용 가능한 방법론을 개발할 수 있는가?

주요 결과

  • 중도 이탈 예측은 해결 가능한 문제이며, 한 주 전에 예측할 경우 모델이 최대 AUC 0.95를 달성한다.
  • 제한된 데이터 조건에서도 모델은 한 주간의 행동 데이터만으로도 수강 종료 시점의 중도 이탈 예측에서 AUC 0.7을 달성한다.
  • 학생의 문제 제출 참여도를 기반으로 한 특징이 가장 예측력이 높았으며, 이는 본 연구에서 사용된 중도 이탈 정의와 일치한다.
  • 백분위수 순위 및 실험실 성적의 시간적 추세와 같은 복잡한 동료 비교 특징이 단순 제출 횟수보다 더 높은 예측력을 보였다.
  • 포럼 게시글의 길이가 중도 이탈 예측에 유의미한 영향을 미쳤지만, 원시적인 게시글 빈도 및 응답 수는 그렇지 않았다. 이는 내용의 질이 양보다 더 중요하다는 것을 시사한다.
  • 위키와 같은 협업 메커니즘은 예측력이 매우 낮았으며, 이는 편집 빈도보다 포럼 콘텐츠의 질이 더 정보를 많이 담고 있음을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.