[논문 리뷰] Identification of cardiovascular diseases through ECG classification using wavelet transformation
논문은 연속 및 이산 웨이블릿 변환을 통해 ECG 신호에서 특징을 추출하고 다양한 분류기를 적용하여 MIT-BIH 유도 데이터에서 최대 96%의 테스트 정확도를 달성합니다.
Cardiovascular diseases are the leading cause of mortality globally, necessitating advancements in diagnostic techniques. This study explores the application of wavelet transformation for classifying electrocardiogram (ECG) signals to identify various cardiovascular conditions. Utilizing the MIT-BIH Arrhythmia Database, we employed both continuous and discrete wavelet transforms to decompose ECG signals into frequency sub-bands, from which we extracted eight statistical features per band. These features were then used to train and test various classifiers, including K-Nearest Neighbors and Support Vector Machines, among others. The classifiers demonstrated high efficacy, with some achieving an accuracy of up to 96% on test data, suggesting that wavelet-based feature extraction significantly enhances the prediction of cardiovascular abnormalities in ECG data. The findings advocate for further exploration of wavelet transforms in medical diagnostics to improve automation and accuracy in disease detection. Future work will focus on optimizing feature selection and classifier parameters to refine predictive performance further.
연구 동기 및 목표
- 수동 해석이 시간이 많이 걸리기 때문에 자동 ECG 분석의 필요성 제기.
- ECG 신호에서 특징 추출을 위한 웨이블릿 변환(CWT 및 DWT) 연구.
- 웨이블릿 유래 특징에 대해 여러 머신러닝 분류기 평가.
- 웨이블릿 선택과 깊이가 분류 성능과 일반화에 어떤 영향을 주는지 규명.
제안 방법
- CWT와 DWT를 모두 사용하여 ECG 신호를 분해하고 주파수 하위대역을 얻는다.
- 하위대역마다 여덟 가지 통계 특징 추출(평균, 중앙값, 표준편차, 분산, RMS, 제로크로스, 평균크로스, 엔트로피).
- 하위대역 간 특징을 집계하여 샘플당 특징 벡터를 구성한다.
- 여러 분류기(KNN, Linear SVC, RBF SVC, Decision Tree, Random Forest, MLP, AdaBoost, GaussianNB, Gradient Boosting)를 학습 및 평가한다.
- 재현 가능한 결과를 위해 Jupyter 환경에서 PyWavelets와 scikit-learn을 사용한 Python으로 수행한다.

실험 결과
연구 질문
- RQ1ECG의 웨이블릿 기반 특징으로 정상 상태와 비정상 심장 상태를 구분할 수 있는가?
- RQ2어떤 웨이블릿 유형과 분해 깊이가 ECG 분류의 최적 예측 성능을 낳는가?
- RQ3MIT-BIH 유도 데이터에서 ECG 분류를 위해 어떤 머신러닝 모델이 웨이블릿 특징을 가장 잘 활용하는가?
- RQ4학습 및 테스트 성능이 잠재적 과적합 및 모델 일반화를 어떻게 반영하는가?
주요 결과
| 분류기 | 하이퍼파라미터 | 학습 정확도 | 테스트 정확도 |
|---|---|---|---|
| K-Nearest Neighbors | K=5, p=1 | 0.91 | 0.88 |
| Linear SVC | N/A | 0.91 | 0.91 |
| RBF SVC | gamma=2, C=1 | 0.99 | 0.83 |
| Decision Tree | max_depth=20 | 0.99 | 0.93 |
| Random Forest | max_depth=20, max_features=5, n_estimates=10 | 0.99 | 0.96 |
| Multi-Layer Perceptron | hidden_layer_sizes=(50,100), alpha=0.01, max_iter=1000, activation='tanh', solver='adam' | 0.97 | 0.95 |
| AdaBoost | N/A | 0.83 | 0.82 |
| GaussianNB | N/A | 0.67 | 0.66 |
| Gradient Boost | N_estimators=10000 | 1.00 | 0.96 |
- 이산 웨이블릿 분해를 다섯 수준으로 수행하면 샘플당 40개의 특징이 생성된다.
- Sym5 웨이블릿을 선택하여 분해를 수행했다.
- Random Forest와 Gradient Boosting은 높은 학습 정확도와 함께 높은 테스트 정확도(각각 0.96)를 달성하여 우수한 성능을 보이지만 과적합 가능성도 시사한다.
- 일부 모델(GaussianNB, AdaBoost)은 학습 및 테스트에서 다른 모델에 비해 성능이 낮았다.
- 일부 모델은 학습 정확도가 매우 높았지만 테스트 정확도는 변동이 있어 정규화 및 하이퍼파라미터 튜닝의 필요성을 강조한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.