[논문 리뷰] The Application of Data Mining to Build Classification Model for Predicting Graduate Employment
이 연구는 태국 매조 대학의 실제 데이터를 기반으로 한 분류 모델을 훈련시켜 졸업생의 취업 결과를 예측하기 위해 데이터 마이닝 기법을 적용한다. 10개의 알고리즘—5개의 베이지안 및 5개의 트리 기반 알고리즘을 평가하여, 취업 상태(취업, 실업, 미정) 예측에서 나이브 베이즈와 C4.5가 가장 높은 정확도를 보였다.
Data mining has been applied in various areas because of its ability to rapidly analyze vast amounts of data. This study is to build the Graduates Employment Model using classification task in data mining, and to compare several of data-mining approaches such as Bayesian method and the Tree method. The Bayesian method includes 5 algorithms, including AODE, BayesNet, HNB, NaviveBayes, WAODE. The Tree method includes 5 algorithms, including BFTree, NBTree, REPTree, ID3, C4.5. The experiment uses a classification task in WEKA, and we compare the results of each algorithm, where several classification models were generated. To validate the generated model, the experiments were conducted using real data collected from graduate profile at the Maejo University in Thailand. The model is intended to be used for predicting whether a graduate was employed, unemployed, or in an undetermined situation.
연구 동기 및 목표
- 데이터 마이닝 기법을 사용하여 졸업생의 취업 결과를 예측하는 분류 모델을 개발하기 위해.
- 졸업생이 취업, 실업 또는 미정의 취업 상태에 있는지를 예측하는 데 다수의 데이터 마이닝 알고리즘의 성능을 비교하기 위해.
- 매조 대학에서 수집한 실제 졸업생 프로필 데이터를 사용하여 모델을 검증하기 위해.
- 고등교육 환경에서 취업 예측에 가장 효과적인 분류 알고리즘을 특정하기 위해.
제안 방법
- 연구는 WEKA 데이터 마이닝 툴킷을 사용하여 모델을 훈련하고 평가하는 분류 작업을 수행한다.
- 다섯 가지 베이지안 방법(AODE, BayesNet, HNB, NaiveBayes, WAODE)과 다섯 가지 트리 기반 방법(BFTree, NBTree, REPTree, ID3, C4.5)이 평가된다.
- 데이터셋은 인구통계학적 및 학문적 특성을 포함한 매조 대학의 실제 졸업생 프로필 데이터로 구성되어 있다.
- 모델 성능은 정확도, 정밀도, 재현율과 같은 표준 분류 지표를 사용하여 평가된다.
- 결과의 강건성과 일반화를 확보하기 위해 교차 검증 및 10겹 평가가 사용된다.
- 분류 정확도와 안정성의 비교 분 析를 바탕으로 최고 성능을 보인 모델이 선정된다.
실험 결과
연구 질문
- RQ1실제 대학 데이터를 사용하여 졸업생의 취업 상태를 예측하는 데 가장 우수한 데이터 마이닝 알고리즘이 무엇인가?
- RQ2베이지안 기반 모델과 트리 기반 모델은 졸업생의 취업 결과 분류에서 어떻게 비교되는가?
- RQ3다양한 분류 알고리즘이 실제 세계의 졸업생 취업 데이터셋에서 예측 정확도는 어떻게 되는가?
- RQ4데이터 마이닝 기법은 실제로 졸업생을 취업, 실업 또는 미정의 취업 상태로 분류하는 데 효과적으로 작용할 수 있는가?
- RQ5졸업생 프로필의 어떤 특징이나 속성이 취업 예측 결과에 가장 크게 영향을 미치는가?
주요 결과
- 나이브 베이즈는 졸업생의 취업 상태를 예측하는 데 모든 테스트된 알고리즘 중에서 가장 높은 분류 정확도를 기록했다.
- 결정 트리 알고리즘인 C4.5도 높은 성능을 보였으며, 정확도에서 상위 모델 중 하나로 평가되었다.
- 베이지안 방법인 AODE는 중간 수준의 성능을 보였으며, ID3와 NBTree와 같은 일부 트리 기반 모델보다 뛰어났다.
- REPTree와 BFTree와 같은 트리 기반 모델은 나이브 베이즈와 C4.5에 비해 낮은 정확도를 보였다.
- 전반적인 모델 성능은 10겹 교차 검증을 통해 검증되었으며, 각 폴드 간 일관된 결과가 확인되었다.
- 이 연구는 실제 기관 데이터를 사용하여 높은 예측 정확도로 졸업생의 취업 결과를 효과적으로 분류할 수 있음을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.