Skip to main content
QUICK REVIEW

[논문 리뷰] Robust and Generalizable Atrial Fibrillation Detection from ECG Using Time-Frequency Fusion and Supervised Contrastive Learning

Hongtao Li, Wei Jia|arXiv (Cornell University)|2026. 01. 15.
ECG Monitoring and Analysis인용 수 0
한 줄 요약

본 논문은 시간-도메인과 주파수-도메인 ECG 특징을 융합하기 위한 양방향 게이팅 모듈과 Cross-modal Supervised Contrastive Learning을 갖춘 다중모달 아키텍처 MGCNet를 소개하여 AF 감지에서 intra-dataset 강인성과 cross-dataset 일반화 성능을 달성한다.

ABSTRACT

Atrial fibrillation (AF) is a common cardiac arrhythmia that significantly increases the risk of stroke and heart failure, necessitating reliable and generalizable detection methods from electrocardiogram (ECG) recordings. Although deep learning has advanced automated AF diagnosis, existing approaches often struggle to exploit complementary time-frequency information effectively, limiting both robustness under intra-dataset and generalization across diverse clinical datasets. To address these challenges, we propose a cross-modal deep learning framework comprising two key components: a Bidirectional Gating Module (BGM) and a Cross-modal Supervised Contrastive Learning (CSCL) strategy. The BGM facilitates dynamic, reciprocal refinement between time and frequency domain features, enhancing model robustness to signal variations within a dataset. Meanwhile, CSCL explicitly structures the joint embedding space by pulling together label-consistent samples and pushing apart different ones, thereby improving inter-class separability and enabling strong cross-dataset generalization. We evaluate our method through five-fold cross-validation on the AFDB and the CPSC2021 dataset, as well as bidirectional cross-dataset experiments (training on one and testing on the other). Results show consistent improvements over state-of-the-art methods across multiple metrics, demonstrating that our approach achieves both high intra-dataset robustness and excellent cross-dataset generalization. We further demonstrate that our method achieves high computational efficiency and anti-interference capability, making it suitable for edge deployment.

연구 동기 및 목표

  • Ambulatory ECG에서 보완적인 시간- 및 주파수-도메인 정보를 활용하여 robust AF 감지를 동기화한다.
  • 노이즈 및 형태학적 변동성에 대한 개선된 강인함을 위해 시간 및 주파수 특징을 동적으로 융합하는 cross-modal 네트워크를 개발한다.
  • 모듈 간 임베딩 공간과 클래스 간 구조를 감독 대조 학습으로 구성하여 다양한 임상 데이터셋 간 일반화를 향상시킨다.
  • 에지 배포에 적합한 효율성을 demonstrate하고 교차 데이터셋 시나리오에서 도메인 시프트를 모의 평가한다.

제안 방법

  • 원시 ECG(시간 도메인) 및 STFT 기반 스펙트로그램(주파수 도메인)에서의 이중 분기 특징 추출.
  • 다중 인코더 단계에서 시간적 및 스펙트럴 특징 사이의 동적 교차 모드 정제를 가능하게 하는 Bidirectional Gated Module (BGM).
  • 모듀얼별 글로벌 어그리게이션: 시간 임베딩을 위한 양방향 GRU 및 주파수 임베딩을 위한 글로벌 풀링으로 Z_t와 Z_f를 산출.
  • Cross-modal Supervised Contrastive Learning (CSCL): 각 모달리티 내 대조 손실과 모달리티 간 대조 정렬을 클래스 레이블로 안내.
  • Z_t와 Z_f의 concat을 통한 융합 후 분류기; 총 손실은 L_total = L_cls + lambda * L_cont
Figure 1: Spectrogram of the cleaned ECG segment generated via STFT, encoded as a three-channel heatmap for frequency-domain modeling. In the time domain, AFIB is characterized by the absence of P waves and highly irregular R-R intervals. In the frequency domain (STFT spectrogram), it exhibits a dif
Figure 1: Spectrogram of the cleaned ECG segment generated via STFT, encoded as a three-channel heatmap for frequency-domain modeling. In the time domain, AFIB is characterized by the absence of P waves and highly irregular R-R intervals. In the frequency domain (STFT spectrogram), it exhibits a dif

실험 결과

연구 질문

  • RQ1시간- 및 주파수 도메인 ECG 표현의 교차 모달 게이팅 융합이 데이터 세트 내 AF 감지 강인성을 향상시킬 수 있는가?
  • RQ2명시적 교차 모달 감독 대조 학습이 AF 감지의 클래스 간 분리성과 교차 데이터셋 일반화를 향상시키는가?
  • RQ3속성 도메인 간의 변화에서 모달 간 및 모달 내 대조가 성능에 어떻게 기여하는가( AFDB와 CPSC2021 데이터셋 간의 도메인 시프트)?

주요 결과

  • MGCNet은 intra-dataset 테스트에서 AFDB 및 CPSC2021에서 최고 정확도 및 AUC를 달성했다( AFDB: Acc 0.9878, AUC 0.9987; CPSC2021: Acc 0.9801, AUC 0.9979 ).
  • 교차 데이터셋 평가에서 MGCNet은 전 DE TRANSFER 방향(AFDB→CPSC2021 및 CPSC2021→AFDB)에서 모든 비교자보다 우수한 성능을 보였다.
  • 교차 데이터셋 결과: AFDB→CPSC2021 Acc 0.9165, AUC 0.9643; CPSC2021→AFDB Acc 0.9507, AUC 0.9894, 특이도 0.9719 포함.
  • MGCNet의 Abalation 연구에서 BGM 또는 CSCL 제거 시 intra- 및 cross-dataset 성능이 저하되었고, 도메인 시프트 하에서 다중 모달 버전이 단일 분기 모델보다 특히 우수한 성능을 보였다.
  • 5-fold 환자-단위 교차 검증에서 폴드 간 변동성(std 약 0.02)이 낮아 강건성 및 재현성을 시사했다.
Figure 2: (a) The full multimodal network for AF detection; (b) The BGM enabling dynamic interaction between time- and frequency-domain features; (c) The CSCL that enforces discriminative embedding alignment across modalities.
Figure 2: (a) The full multimodal network for AF detection; (b) The BGM enabling dynamic interaction between time- and frequency-domain features; (c) The CSCL that enforces discriminative embedding alignment across modalities.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.