QUICK REVIEW

[논문 리뷰] Dengue disease prediction using weka data mining tool

Kashish Ara Shakil, Shadma Anis|arXiv (Cornell University)|2015. 02. 18.

Artificial Intelligence in Healthcare참고 문헌 11인용 수 44

한 줄 요약

이 연구는 108개의 인스턴스로 구성된 데이터셋을 99행으로 줄여 18개의 속성을 가진 데이터를 사용하여 WEKA에서 다양한 데이터 마이닝 알고리즘의 지도학습 성능을 평가한다. Naïve Bayes와 J48는 100% 분류 정확도, AUC 1, 최소 평균 절대 오차, 가장 짧은 모델 학습 시간을 기록하여 이 연구에서 뎅기열 예측에 가장 효과적인 알고리즘이 되었다.

ABSTRACT

Dengue is a life threatening disease prevalent in several developed as well as developing countries like India.In this paper we discuss various algorithm approaches of data mining that have been utilized for dengue disease prediction. Data mining is a well known technique used by health organizations for classification of diseases such as dengue, diabetes and cancer in bioinformatics research. In the proposed approach we have used WEKA with 10 cross validation to evaluate data and compare results. Weka has an extensive collection of different machine learning and data mining algorithms. In this paper we have firstly classified the dengue data set and then compared the different data mining techniques in weka through Explorer, knowledge flow and Experimenter interfaces. Furthermore in order to validate our approach we have used a dengue dataset with 108 instances but weka used 99 rows and 18 attributes to determine the prediction of disease and their accuracy using classifications of different algorithms to find out the best performance. The main objective of this paper is to classify data and assist the users in extracting useful information from data and easily identify a suitable algorithm for accurate predictive model from it. From the findings of this paper it can be concluded that Naïve Bayes and J48 are the best performance algorithms for classified accuracy because they achieved maximum accuracy= 100% with 99 correctly classified instances, maximum ROC = 1, had least mean absolute error and it took minimum time for building this model through Explorer and Knowledge flow results

연구 동기 및 목표

실제 보건 데이터를 활용하여 뎅기열 예측에 가장 정확한 데이터 마이닝 알고리즘을 특정하기 위해.
WEKA에서 다양한 기계학습 알고리즘의 뎅기열 분류 성능을 평가하고 비교하기 위해.
정확도, AUC, 평균 절대 오차, 학습 시간을 기반으로 최적의 알고리즘을 도출하기 위해.
보건 기관이 뎅기열 유행 예측에 효과적인 예측 모델을 선택할 수 있는 실용적 프레임워크를 제공하기 위해.
WEKA의 Explorer, Knowledge Flow, Experimenter 인터페이스가 모델 선택 및 평가에 효과적으로 기여하는지 검증하기 위해.

제안 방법

연구는 108개의 인스턴스를 포함한 뎅기열 데이터셋을 사용하였으며, 분석을 위해 99행과 18개의 속성으로 축소하였다.
모든 알고리즘의 성능 평가를 위해 십중합 교차검증을 적용하였다.
WEKA의 Explorer, Knowledge Flow, Experimenter 인터페이스를 활용하여 12종의 다양한 분류 알고리즘을 학습하고 비교하였다.
성능 평가 지표로는 분류 정확도, ROC 곡선 아래 면적(AUC), 평균 절대 오차, 모델 학습 시간을 사용하였다.
가장 높은 정확도, AUC, 가장 낮은 오차 및 시간 기반으로 최고 성능을 보인 알고리즘을 선정하였다.
모든 인터페이스에서의 비교 평가를 통해 Naïve Bayes와 J48가 최고 성능을 보임을 확인하였다.

실험 결과

연구 질문

RQ1WEKA 내에서 뎅기열 예측에 가장 높은 분류 정확도를 달성하는 데이터 마이닝 알고리즘은 무엇인가?
RQ2다양한 알고리즘 간에 AUC, 평균 절대 오차, 학습 시간 측면에서의 성능 비교는 어떻게 이루어지는가?
RQ3WEKA의 Explorer, Knowledge Flow, Experimenter 인터페이스는 뎅기열 예측을 위한 모델 선택에 효과적으로 기여할 수 있는가?
RQ4{lng기 예측 정확도, 계산 효율성, 모델 신뢰성 간의 최적의 균형은 무엇인가?
RQ5십중합 교차검증과 WEKA의 여러 인터페이스 조합이 모델 평가의 정밀도를 향상시키는가?

주요 결과

Naïve Bayes와 J48는 데이터셋의 99개 인스턴스를 모두 정확히 분류하여 100% 분류 정확도를 기록하였다.
이 두 알고리즘은 ROC 곡선 아래 면적(AUC)이 1.0으로 최대에 도달하여 완벽한 분류 성능를 보였다.
이 두 알고리즘은 평가된 모든 모델 중에서 가장 낮은 평균 절대 오차를 기록하였다.
Naïve Bayes와 J48는 가장 짧은 학습 시간을 기록하여 모델 구축에 있어 가장 효율적인 알고리즘이었다.
WEKA의 Explorer 및 Knowledge Flow 인터페이스에서 도출된 결과는 일관되며, Naïve Bayes와 J48의 뛰어난 성능를 확인하였다.
이 연구는 Naïve Bayes와 J48가 주어진 데이터셋을 활용한 정확하고 효율적인 뎅기열 예측에 가장 적합한 알고리즘이라는 것을 확인하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.