QUICK REVIEW

[논문 리뷰] Machine Learning Approaches for Inferring Liver Diseases and Detecting Blood Donors from Medical Diagnosis

Fahad Mostafa, Easin Hasan|arXiv (Cornell University)|2021. 04. 25.

Artificial Intelligence in Healthcare참고 문헌 22인용 수 2

한 줄 요약

이 연구는 UCI-MLR 데이터를 사용하여 간염, 섬유화, 간경변 환자 중 헌혈자와 비헌혈자를 분류하기 위해 기계학습을 적용한다. 결측치 처리에 다중 대체법을, 차원 축소에 주성분 분석(PCA)을 사용하고, SVM, 랜덤 포레스트, 인공신경망 분류기 간의 성능을 비교하여 SVM에서 98.23%의 정확도를 달성하며 진단 의사결정 지원을 크게 향상시켰다.

ABSTRACT

For a medical diagnosis, health professionals use different kinds of pathological ways to make a decision for medical reports in terms of patients medical condition. In the modern era, because of the advantage of computers and technologies, one can collect data and visualize many hidden outcomes from them. Statistical machine learning algorithms based on specific problems can assist one to make decisions. Machine learning data driven algorithms can be used to validate existing methods and help researchers to suggest potential new decisions. In this paper, multiple imputation by chained equations was applied to deal with missing data, and Principal Component Analysis to reduce the dimensionality. To reveal significant findings, data visualizations were implemented. We presented and compared many binary classifier machine learning algorithms (Artificial Neural Network, Random Forest, Support Vector Machine) which were used to classify blood donors and non-blood donors with hepatitis, fibrosis and cirrhosis diseases. From the data published in UCI-MLR [1], all mentioned techniques were applied to find one better method to classify blood donors and non-blood donors (hepatitis, fibrosis, and cirrhosis) that can help health professionals in a laboratory to make better decisions. Our proposed ML-method showed better accuracy score (e.g. 98.23% for SVM). Thus, it improved the quality of classification.

연구 동기 및 목표

임상 데이터 기반 기계학습을 활용하여 간질환 진단의 의료적 의사결정을 향상시키는 것.
의료 데이터셋에서의 결측치 및 고차원성과 같은 데이터 품질 문제를 해결하는 것.
간염, 섬유화, 간경변 환자 중 헌혈자와 비헌혈자를 구분하는 데 가장 정확한 기계학습 모델을 특정하는 것.
의료 전문가가 더 신뢰할 수 있는 임상 검사 결과를 도출할 수 있도록 데이터 기반 도구를 제공하는 것.

제안 방법

UCI-MLR 데이터셋의 결측치를 처리하기 위해 연쇄된 방식의 다중 대체법(MICE)을 사용하였다.
모델의 효율성 향상과 노이즈 감소를 위해 특성 공간의 차원을 줄이기 위해 주성분 분석(PCA)을 적용하였다.
숨겨진 패턴을 파악하고 데이터 품질을 검증하기 위해 데이터 시각화 기법을 적용하였다.
이진 분류를 위해 인공신경망(ANN), 랜덤 포레스트(RF), 서포트 벡터 머신(SVM)의 세 가지 기계학습 모델을 사용하였다.
모델 성능 평가에 정확도를 주요 지표로 사용하였고, 탄탄한 성능 확보를 위해 교차검증을 실시하였다.
모든 질환 유형에서의 정확도 점수를 비교하여 최고 성능을 보인 모델을 선정하였다.

실험 결과

연구 질문

RQ1간질환 환자 중 헌혈자와 비헌혈자를 분류하는 데 있어 어떤 기계학습 알고리즘이 가장 높은 정확도를 달성하는가?
RQ2MICE 및 PCA와 같은 데이터 전처리 기법이 임상 데이터셋의 분류 성능 향상에 얼마나 효과적인가?
RQ3기계학습 모델은 간염, 섬유화, 간경변 환자에서 헌혈자 신원을 식별하는 데 기존 진단 방법을 능가할 수 있는가?
RQ4전처리 이전 및 이후의 데이터 구조와 관계를 시각화함으로써 어떤 통찰을 얻을 수 있는가?

주요 결과

서포트 벡터 머신(SVM) 분류기가 헌혈자와 비헌혈자를 구분하는 데 98.23%의 최고 정확도를 기록하였다.
MICE의 적용으로 데이터 품질이 크게 향상되었으며, 데이터셋 내 결측치를 효과적으로 처리하였다.
PCA는 차원 축소에 기여하여 모델의 효율성을 높이고 과적합 위험을 감소시켰다.
데이터 시각화를 통해 간질환 지표와 헌혈자 상태의 분포에 의미 있는 패턴이 드러났다.
시험된 모델들 중에서 SVM이 랜덤 포레스트 및 인공신경망보다 분류 정확도에서 뛰어난 성능을 보였다.
전반적인 기계학습 파이프라인은 임상 검사실에서 진단 의사결정 지원 향상 잠재력을 높게 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.