Skip to main content
QUICK REVIEW

[論文レビュー] Classification of Cervical Cancer Dataset

Avishek Choudhury, Y. M. S. Al Wesabi|arXiv (Cornell University)|Dec 11, 2018
Imbalanced Data Classification Techniques参考文献 8被引用数 23
ひとこと要約

本研究では、32の属性を持つ858件のサンプルから成るデータセットを用いて、欠損値とクラス不均衡の問題に対処するための機械学習フレームワークを提案する。過剰サンプリングおよびアンダーサンプリング、特徴選択を用いて処理を行い、フィルタ法およびラッパー法を用いて年齢、初回性交渉、出産回数、喫煙、ホルモン補正避妊薬、性器ヘルペスが予測力の高い特徴として特定され、意思決定木分類器を用いて97.5%の精度を達成した。

ABSTRACT

Cervical cancer is the leading gynecological malignancy worldwide. This paper presents diverse classification techniques and shows the advantage of feature selection approaches to the best predicting of cervical cancer disease. There are thirty-two attributes with eight hundred and fifty-eight samples. Besides, this data suffers from missing values and imbalance data. Therefore, over-sampling, under-sampling and embedded over and under sampling have been used. Furthermore, dimensionality reduction techniques are required for improving the accuracy of the classifier. Therefore, feature selection methods have been studied as they divided into two distinct categories, filters and wrappers. The results show that age, first sexual intercourse, number of pregnancies, smokes, hormonal contraceptives, and STDs: genital herpes are the main predictive features with high accuracy with 97.5%. Decision Tree classifier is shown to be advantageous in handling classification assignment with excellent performance.

研究の動機と目的

  • 欠損値とクラス不均衡を含むデータセットにおける子宮頸がん予測の精度を向上させること。
  • フィルタ法およびラッパー法を含むさまざまな特徴選択手法の有効性が分類器性能に与える影響を評価すること。
  • 機械学習を用いて、本データセットにおける子宮頸がんの予測に最も寄与する臨床的および人口統計的特徴を同定すること。
  • クラス不均衡データに対処するためのさまざまなサンプリング戦略(過剰サンプリング、アンダーサンプリング、埋め込み手法)のモデル性能への影響を比較すること。
  • 与えられたデータセットおよび前処理手法を組み合わせた場合に、子宮頸がん予測の最適な分類モデルを特定すること。

提案手法

  • 子宮頸がんデータセットのクラス不均衡に対処するために、過剰サンプリング、アンダーサンプリング、埋め込みサンプリング手法を適用した。
  • 関連性の高い特徴をランク付け・選択するために、フィルタベースの特徴選択(例:相関に基づく、情報量に基づく)を用いた。
  • 予測力の高い特徴サブセットを特定するために、ラッパーベースの特徴選択(例:再帰的特徴削除)を採用した。
  • 特徴選択による次元削減により、分類器の効率性と精度を向上させた。
  • 複数の分類器を訓練・評価したが、意思決定木モデルが優れた性能を示した。
  • 前処理済みおよび特徴選択済みデータセット上で、主に正解率を指標としてモデルの性能を評価した。

実験結果

リサーチクエスチョン

  • RQ1フィルタ法とラッパー法のどちらの特徴選択手法が、子宮頸がん予測において最も高い分類精度をもたらすか?
  • RQ2過剰サンプリング、アンダーサンプリング、埋め込み手法といった異なるサンプリング戦略は、クラス不均衡な子宮頸がんデータに対してモデル性能にどのように影響を与えるか?
  • RQ3本データセットにおいて、子宮頸がんの予測に最も寄与する臨床的および人口統計的特徴は何か?
  • RQ4特徴選択およびサンプリングを組み合わせた場合に、子宮頸がん予測の最適な機械学習分類器は何か?
  • RQ5特徴選択による次元削減は、子宮頸がん分類モデルの精度をどの程度向上させるか?

主な発見

  • 特徴選択とサンプリング手法の組み合わせにより、分類精度が顕著に向上し、97.5%に達した。
  • 前処理済みデータセット上で、意思決定木分類器が他のモデルを上回る性能を示した。
  • 年齢、初回性交渉、出産回数、喫煙状態、ホルモン補正避妊薬使用歴、性器ヘルペスの既往が、上位6つの予測特徴として特定された。
  • 本データセットにおいて、ラッパー法による特徴選択がフィルタ法よりもモデル精度の向上により効果的であった。
  • 埋め込みサンプリング手法の使用により、データ漏洩や過学習を引き起こさずにデータセットのバランスを改善できた。
  • 最終モデルは高い特異度と感度を達成しており、子宮頸がんデータセットにおける強力な汎化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。