QUICK REVIEW

[논문 리뷰] Classification of Cervical Cancer Dataset

Avishek Choudhury, Y. M. S. Al Wesabi|arXiv (Cornell University)|2018. 12. 11.

Imbalanced Data Classification Techniques참고 문헌 8인용 수 23

한 줄 요약

이 연구는 858개의 샘플과 32개의 특성으로 구성된 데이터셋을 사용하여ervical cancer를 분류하기 위한 머신러닝 프레임워크를 제안한다. 결측치와 클래스 불균형 문제를 해결하기 위해 오버/언더샘플링 및 특성 선택 기법을 적용한다. 필터 및 워퍼 방법을 통해 나이, 첫 성관계 연령, 임신 횟수, 흡연 여부, 호르몬 피임약 사용 여부, 생식기 단순 헤르페스 감염력이 상위 예측 특성로 확인되었으며, 의사결정나무 분류기로 97.5%의 정확도를 달성하였다.

ABSTRACT

Cervical cancer is the leading gynecological malignancy worldwide. This paper presents diverse classification techniques and shows the advantage of feature selection approaches to the best predicting of cervical cancer disease. There are thirty-two attributes with eight hundred and fifty-eight samples. Besides, this data suffers from missing values and imbalance data. Therefore, over-sampling, under-sampling and embedded over and under sampling have been used. Furthermore, dimensionality reduction techniques are required for improving the accuracy of the classifier. Therefore, feature selection methods have been studied as they divided into two distinct categories, filters and wrappers. The results show that age, first sexual intercourse, number of pregnancies, smokes, hormonal contraceptives, and STDs: genital herpes are the main predictive features with high accuracy with 97.5%. Decision Tree classifier is shown to be advantageous in handling classification assignment with excellent performance.

연구 동기 및 목표

결측치와 클래스 불균형이 존재하는 데이터셋에서 자궁경부암 예측 정확도를 향상시키기 위해.
다양한 특성 선택 기법(필터 및 워퍼 방법)이 분류기 성능 향상에 미치는 영향을 평가하기 위해.
머신러닝을 활용하여 자궁경부암 예측에 가장 유의미한 임상 및 인구통계학적 특성들을 규명하기 위해.
클래스 불균형 데이터를 처리하기 위한 다양한 샘플링 전략(오버샘플링, 언더샘플링, 임bedded 방법)의 성능 영향을 비교하기 위해.
주어진 데이터셋과 전처리 기법을 통합한 최적의 분류 모델을 도출하기 위해.

제안 방법

자궁경부암 데이터셋의 클래스 불균형 문제를 해결하기 위해 오버샘플링, 언더샘플링 및 임베디드 샘플링 기법을 적용하였다.
관련 특성을 순위 매기고 선별하기 위해 필터 기반 특성 선택(예: 상관관계 기반, 정보량 기반)을 사용하였다.
가장 예측 가능한 특성 조합을 식별하기 위해 워퍼 기반 특성 선택(예: 재귀적 특성 제거)을 적용하였다.
특성 선택을 통해 차원을 감소시켜 분류기의 효율성과 정확도를 향상시켰다.
다양한 분류기 모델을 훈련 및 평가하였으며, 의사결정나무 모델이 가장 뛰어난 성능을 보였다.
전처리 및 특성 선택이 완료된 데이터셋에서 정확도를 주요 평가 지표로 사용하여 모델 성능을 평가하였다.

실험 결과

연구 질문

RQ1필터 대비 워퍼 기반 특성 선택 기법 중 어느 것이 자궁경부암 예측 정확도를 가장 높게 산출하는가?
RQ2다양한 샘플링 전략(오버샘플링, 언더샘플링, 임베디드 방법)은 클래스 불균형이 존재하는 자궁경부암 데이터에서 모델 성능에 어떤 영향을 미치는가?
RQ3주어진 데이터셋에서 자궁경부암 예측에 가장 유의미한 임상 및 인구통계학적 특성은 무엇인가?
RQ4특성 선택 및 샘플링을 통합한 자궁경부암 예측에 최적의 머신러닝 분류기는 무엇인가?
RQ5특성 선택에 의한 차원 감소는 자궁경부암 분류 모델의 정확도 향상에 얼마나 기여하는가?

주요 결과

특성 선택과 샘플링 기법의 조합이 분류 정확도를 크게 향상시켜 97.5%에 도달하였다.
의사결정나무 분류기가 전처리된 데이터셋에서 다른 모델보다 뛰어난 성능을 보였다.
나이, 첫 성관계 연령, 임신 횟수, 흡연 여부, 호르몬 피임약 사용 여부, 생식기 단순 헤르페스 감염력이 상위 여섯 가지 예측 특성으로 확인되었다.
이 데이터셋에서는 워퍼 기반 특성 선택 기법이 필터 기반 방법보다 모델 정확도 향상에 더 효과적이었다.
임베디드 샘플링 기법의 사용은 데이터 누출이나 과적합을 유발하지 않으면서 데이터셋의 균형을 유지하는 데 기여하였다.
최종 모델은 높은 특이도와 민감도를 확보하여 자궁경부암 데이터셋에서 강력한 일반화 능력을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.