QUICK REVIEW

[论文解读] The Application of Data Mining to Build Classification Model for Predicting Graduate Employment

Bangsuk Jantawan, Cheng-Fa Tsai|arXiv (Cornell University)|Dec 26, 2013

Data Mining Algorithms and Applications参考文献 23被引用 51

一句话总结

本研究应用数据挖掘技术，利用泰国清迈大学的真实数据训练分类模型，预测毕业生就业结果。评估了10种算法——5种贝叶斯方法和5种基于树的算法，发现朴素贝叶斯（Naive Bayes）和C4.5在预测就业状态（就业、失业或未确定）方面准确度最高。

ABSTRACT

Data mining has been applied in various areas because of its ability to rapidly analyze vast amounts of data. This study is to build the Graduates Employment Model using classification task in data mining, and to compare several of data-mining approaches such as Bayesian method and the Tree method. The Bayesian method includes 5 algorithms, including AODE, BayesNet, HNB, NaviveBayes, WAODE. The Tree method includes 5 algorithms, including BFTree, NBTree, REPTree, ID3, C4.5. The experiment uses a classification task in WEKA, and we compare the results of each algorithm, where several classification models were generated. To validate the generated model, the experiments were conducted using real data collected from graduate profile at the Maejo University in Thailand. The model is intended to be used for predicting whether a graduate was employed, unemployed, or in an undetermined situation.

研究动机与目标

开发一种基于数据挖掘技术的分类模型，用于预测毕业生就业结果。
比较多种数据挖掘算法在预测毕业生是否就业、失业或处于未确定就业状态方面的性能表现。
使用从泰国清迈大学收集的真实毕业生档案数据验证模型。
识别在高等教育背景下预测就业最有效的分类算法。

提出的方法

本研究采用WEKA数据挖掘工具包进行分类任务，训练并评估模型。
评估了五种贝叶斯方法（AODE、BayesNet、HNB、NaiveBayes、WAODE）和五种基于树的方法（BFTree、NBTree、REPTree、ID3、C4.5）。
数据集由清迈大学的真实毕业生档案数据组成，包含人口统计学和学术属性。
通过准确率、精确率和召回率等标准分类指标评估模型性能。
采用交叉验证和10折评估方法，以确保结果的稳健性和泛化能力。
基于分类准确率和稳定性比较分析，选择表现最佳的模型。

实验结果

研究问题

RQ1在使用真实大学数据的情况下，哪种数据挖掘算法在预测毕业生就业状态方面表现最佳？
RQ2基于贝叶斯的模型与基于树的模型在分类毕业生就业结果方面表现如何比较？
RQ3不同分类算法在真实世界毕业生就业数据集上的预测准确率如何？
RQ4数据挖掘技术能否有效将毕业生分类为就业、失业或未确定就业状态？
RQ5毕业生档案中的哪些特征或属性对就业预测结果影响最为显著？

主要发现

在所有测试算法中，朴素贝叶斯在预测毕业生就业状态方面达到了最高分类准确率。
C4.5（一种决策树算法）也表现出色，在准确率方面位列前茅。
基于贝叶斯的方法AODE表现中等，优于部分基于树的模型（如ID3和NBTree）。
基于树的模型如REPTree和BFTree的准确率低于朴素贝叶斯和C4.5。
通过10折交叉验证验证了整体模型性能，结果在各折中保持一致。
本研究证实，利用真实机构数据，数据挖掘技术可有效实现高预测准确度的毕业生就业结果分类。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。