Skip to main content
QUICK REVIEW

[論文レビュー] Robust and Generalizable Atrial Fibrillation Detection from ECG Using Time-Frequency Fusion and Supervised Contrastive Learning

Hongtao Li, Wei Jia|arXiv (Cornell University)|Jan 15, 2026
ECG Monitoring and Analysis被引用数 0
ひとこと要約

本論文は、時系列と周波数領域のECG特徴を統合するためのBidirectional Gating ModuleとCross-modal Supervised Contrastive Learningを備えたマルチモーダルアーキテクチャMGCNetを提案し、AF検出におけるデータ内ロバスト性とデータセット横断一般化を最先端レベルで達成します。

ABSTRACT

Atrial fibrillation (AF) is a common cardiac arrhythmia that significantly increases the risk of stroke and heart failure, necessitating reliable and generalizable detection methods from electrocardiogram (ECG) recordings. Although deep learning has advanced automated AF diagnosis, existing approaches often struggle to exploit complementary time-frequency information effectively, limiting both robustness under intra-dataset and generalization across diverse clinical datasets. To address these challenges, we propose a cross-modal deep learning framework comprising two key components: a Bidirectional Gating Module (BGM) and a Cross-modal Supervised Contrastive Learning (CSCL) strategy. The BGM facilitates dynamic, reciprocal refinement between time and frequency domain features, enhancing model robustness to signal variations within a dataset. Meanwhile, CSCL explicitly structures the joint embedding space by pulling together label-consistent samples and pushing apart different ones, thereby improving inter-class separability and enabling strong cross-dataset generalization. We evaluate our method through five-fold cross-validation on the AFDB and the CPSC2021 dataset, as well as bidirectional cross-dataset experiments (training on one and testing on the other). Results show consistent improvements over state-of-the-art methods across multiple metrics, demonstrating that our approach achieves both high intra-dataset robustness and excellent cross-dataset generalization. We further demonstrate that our method achieves high computational efficiency and anti-interference capability, making it suitable for edge deployment.

研究の動機と目的

  • 補助情報を活用した低侵襲なambulatory ECGからの堅牢なAF検出の動機付け。
  • 時間領域と周波数特徴を動的に統合するクロスモーダルネットワークの開発。
  • 監督付きコントラスト学習により埋め込み空間をモダリティ間・クラス間で構造化し、一般化を向上。
  • エッジデプロイに適した効率性を Demonstrate し、実世界のドメインシフトを模擬する横断データセット評価を実施。

提案手法

  • 生データECG(時系列)とSTFTベースのスペクトログラム(周波数領域)からの二重ブランチ特徴抽出。
  • Bidirectional Gated Module(BGM)を用いて複数のエンコーダステージで時間的特徴とスペクトル特徴の動的なクロスモーダル改良を実現。
  • モダリティ固有のグローバル集約:時系列埋め込みにはBidirectional GRU、周波数埋め込みにはグローバルプーリングを適用し、Z_tとZ_fを得る。
  • Cross-modal Supervised Contrastive Learning(CSCL):各モダリティ内の対比損失とモダリティ間の整合をクラスラベルに guided。
  • Z_tとZ_fの結合(結合→分類器)による融合;総損失はL_total = L_cls + lambda * L_cont。
Figure 1: Spectrogram of the cleaned ECG segment generated via STFT, encoded as a three-channel heatmap for frequency-domain modeling. In the time domain, AFIB is characterized by the absence of P waves and highly irregular R-R intervals. In the frequency domain (STFT spectrogram), it exhibits a dif
Figure 1: Spectrogram of the cleaned ECG segment generated via STFT, encoded as a three-channel heatmap for frequency-domain modeling. In the time domain, AFIB is characterized by the absence of P waves and highly irregular R-R intervals. In the frequency domain (STFT spectrogram), it exhibits a dif

実験結果

リサーチクエスチョン

  • RQ1時系列と周波数領域のECG表現をクロスモーダルでゲート制御的に統合する手法は、データ内のAF検出のロバスト性を向上させるか。
  • RQ2明示的なクロスモーダル監督付きコントラスト学習は、AF検出のクラス間分離とデータセット横断一般化を高めるか。
  • RQ3AFDBとCPSC2021データセット間のドメインシフト下で、 intra-モーダル対比と inter-モーダル対比が性能にどのように寄与するか。

主な発見

ModelSettingAccAUCF1PrecisionRecallSpecificity
SCCNN (2023)AFDB→CPSC20210.83860.94970.80210.69690.94480.7823
IMCResNet (2024)AFDB→CPSC20210.85040.93190.79820.74890.85450.8482
MoETransformer (2024)AFDB→CPSC20210.86810.93550.81650.78780.84740.8971
SeqAFNet (2024)AFDB→CPSC20210.86460.93820.81650.76910.87010.8617
MFEGNet (2025)AFDB→CPSC20210.88430.95930.85150.76630.95790.8453
MSCGN (2026)AFDB→CPSC20210.89510.96090.86110.79470.93970.8714
MGCNet (Ours)AFDB→CPSC20210.91650.96430.88190.86390.90070.9248
SCCNN (2023)CPSC2021→AFDB0.84130.91400.79070.78280.79870.8669
IMCResNet (2024)CPSC2021→AFDB0.77060.82400.72740.65640.81570.7435
MoETransformer (2024)CPSC2021→AFDB0.74900.85350.68400.64830.72380.7642
SeqAFNet (2024)CPSC2021→AFDB0.82970.92720.78700.69400.90880.7878
MFEGNet (2025)CPSC2021→AFDB0.87560.96200.84500.79350.90370.8588
MSCGN (2026)CPSC2021→AFDB0.91640.95040.89470.84830.94650.8983
MGCNet (Ours)CPSC2021→AFDB0.95070.98940.93310.95140.91540.9719
  • MGCNetはデータ内テストでAFDBおよびCPSC2021の最高精度とAUCを達成(AFDB: Acc 0.9878, AUC 0.9987; CPSC2021: Acc 0.9801, AUC 0.9979)。
  • データセット横断評価では、転送方向のいずれにおいても他の比較手法を上回る。AFDB→CPSC2021およびCPSC2021→AFDB。
  • データセット横断結果:AFDB→CPSC2021 Acc 0.9165, AUC 0.9643;CPSC2021→AFDB Acc 0.9507, AUC 0.9894、特異度高0.9719を示す。
  • BGMまたはCSCLを除去するとデータ内およびデータセット横断の性能が低下し、マルチモーダル変種は単一ブランチモデルより特にドメインシフト下で優位。
  • 5フォールドの患者別クロスバリデーションでfold間の変動が小さく(標準偏差約0.02)、頑健性と再現性を示す。
Figure 2: (a) The full multimodal network for AF detection; (b) The BGM enabling dynamic interaction between time- and frequency-domain features; (c) The CSCL that enforces discriminative embedding alignment across modalities.
Figure 2: (a) The full multimodal network for AF detection; (b) The BGM enabling dynamic interaction between time- and frequency-domain features; (c) The CSCL that enforces discriminative embedding alignment across modalities.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。