[論文レビュー] The Application of Data Mining to Build Classification Model for Predicting Graduate Employment
本研究では、タイのメージョ大学から得た実際のデータを用いて、分類モデルを訓練することで、大学院生の就職状況を予測するためのデータマイニング技術を適用している。10種類のアルゴリズム(5種類のベイジアンおよび5種類の木構造ベース)を評価した結果、ナイーブベイズおよびC4.5が、就職状態(就職済み、失業、未定義)を予測する際に最も高い正確性を示した。
Data mining has been applied in various areas because of its ability to rapidly analyze vast amounts of data. This study is to build the Graduates Employment Model using classification task in data mining, and to compare several of data-mining approaches such as Bayesian method and the Tree method. The Bayesian method includes 5 algorithms, including AODE, BayesNet, HNB, NaviveBayes, WAODE. The Tree method includes 5 algorithms, including BFTree, NBTree, REPTree, ID3, C4.5. The experiment uses a classification task in WEKA, and we compare the results of each algorithm, where several classification models were generated. To validate the generated model, the experiments were conducted using real data collected from graduate profile at the Maejo University in Thailand. The model is intended to be used for predicting whether a graduate was employed, unemployed, or in an undetermined situation.
研究の動機と目的
- データマイニング技術を用いて、大学院生の就職状況を予測する分類モデルの構築を目的とする。
- 複数のデータマイニングアルゴリズムの性能を、大学院生が就職済み、失業、または未定義の就職状態にあるかどうかを予測する文脈で比較する。
- タイのメージョ大学から収集した実際の大学院生プロファイルデータを用いて、モデルの妥当性を検証する。
- 高等教育の文脈において、就職予測に最も効果的な分類アルゴリズムを特定する。
提案手法
- 本研究では、WEKAデータマイニングツールキットを用いて、分類タスクを実施し、モデルのトレーニングと評価を実施している。
- 5種類のベイジアン手法(AODE、BayesNet、HNB、NaiveBayes、WAODE)と5種類の木構造ベースの手法(BFTree、NBTree、REPTree、ID3、C4.5)を評価した。
- データセットは、人種的・文化的属性および学術的属性を含む、メージョ大学の実際の大学院生プロファイルデータから構成されている。
- モデルのパフォーマンスは、正確性、適合率、再現率などの標準的な分類指標を用いて評価された。
- 妥当性と一般化性能を確保するため、交差検証および10分割交差検証が用いられた。
- 分類の正確性と安定性の比較分析に基づき、最も優れたパフォーマンスを示したモデルが選定された。
実験結果
リサーチクエスチョン
- RQ1実際の大学データを用いた場合、どのデータマイニングアルゴリズムが大学院生の就職状況を予測する際に最も優れた性能を示すか?
- RQ2ベイジアンベースのモデルと木構造ベースのモデルは、大学院生の就職状況分類においてどのように比較されるか?
- RQ3さまざまな分類アルゴリズムの予測正確性は、実世界の大学院生就職データセットにおいてどの程度か?
- RQ4データマイニング技術は、大学院生を就職済み、失業、または未定義の就職状態に分類するのに効果的に機能するか?
- RQ5大学院生プロファイルにおけるどの特徴や属性が、就職予測の結果に最も顕著な影響を与えるか?
主な発見
- ナイーブベイズは、すべてのテスト済みアルゴリズムの中で、大学院生の就職状況を予測する際の分類正確性が最も高かった。
- 意思決定木アルゴリズムのC4.5も強く優れたパフォーマンスを示し、正確性において上位のモデルの一つであった。
- ベイジアン手法のAODEは中程度のパフォーマンスを示し、ID3 や NBTree などの一部の木構造ベースのモデルを上回った。
- REPTree や BFTree などの木構造ベースのモデルは、ナイーブベイズや C4.5 に比べて正確性が低かった。
- 全体的なモデルパフォーマンスは10分割交差検証を用いて検証され、各Foldで一貫した結果が得られた。
- 本研究では、データマイニング技術が実際の機関データを用いて、高い予測正確性で大学院生の就職状況を効果的に分類可能であることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。