Skip to main content
QUICK REVIEW

[논문 리뷰] Contrastive Learning for Multi Label ECG Classification with Jaccard Score Based Sigmoid Loss

Junichiro Takahashi, Masataka Sato|arXiv (Cornell University)|2026. 02. 11.
ECG Monitoring and Analysis인용 수 0
한 줄 요약

논문은 SigLIP를 사용하여 실세계 데이터로 ECG 인코더를 학습하고, 실제 다중 라벨 ECG 분류를 가능하게 하는 Jaccard 기반 시그모이드 손실을 도입하여 마이크로-F1 및 재합집합(Jaccard) 점수를 향상시키며, 임베딩 차원 및 데이터 증강으로 추가 이점을 얻는다.

ABSTRACT

Recent advances in large language models (LLMs) have enabled the development of multimodal medical AI. While models such as MedGemini achieve high accuracy on VQA tasks like USMLE MM, their performance on ECG based tasks remains limited, and some models, such as MedGemma, do not support ECG data at all. Interpreting ECGs is inherently challenging, and diagnostic accuracy can vary depending on the interpreter's experience. Although echocardiography provides rich diagnostic information, it requires specialized equipment and personnel, limiting its availability. In this study, we focus on constructing a robust ECG encoder for multimodal pretraining using real world hospital data. We employ SigLIP, a CLIP based model with a sigmoid based loss function enabling multi label prediction, and introduce a modified loss function tailored to the multi label nature of ECG data. Experiments demonstrate that incorporating medical knowledge in the language model and applying the modified loss significantly improve multi label ECG classification. To further enhance performance, we increase the embedding dimensionality and apply random cropping to mitigate data drift. Finally, per label analysis reveals which ECG findings are easier or harder to predict. Our study provides a foundational framework for developing medical models that utilize ECG data.

연구 동기 및 목표

  • 실세계 병원 데이터로 다중 라벨 예측을 위한 견고한 다중 모달 ECG 인코딩의 필요성 제시.
  • ECG 소견에 대한 Jaccard 유사도를 포함하는 수정된 시그모이드 손실의 개발 및 테스트.
  • 사전학습에서 ECG 도메인 지식이 있는 언어 모델의 영향 평가.
  • 데이터 드리프트 완화를 위한 더 높은 임베딩 차원 및 랜덤 크롭 등의 개선 탐색.

제안 방법

  • 1D ResNet-18을 ECG 인코더로 사용하고 Qwen3-8B를 언어 모델로 사용.
  • CrossEntropy 기반 CLIP 손실을 시그모이드 기반 손실(SigLIP)로 대체하고 다중 라벨 예측을 처리하기 위한 Jaccard 기반 눈 행렬을 도입.
  • 12리드, 500 Hz, 10초 녹음의 33,732개의 실세계 ECG에서 학습; 텍스트 캡션은 소견을 설명.
  • 표준 SigLIP 손실과 Jaccard 유사성을 배치 상호작용에 포함한 수정 시그모이드 손실 비교.
  • 해밍 손실, 정밀도(마이크로), 재현율(마이크로), F1 점수(마이크로), Jaccard 지수로 평가; 임베딩 크기 및 데이터 증강(랜덤 크롭)에 대한 제거 분석 수행.
  • ECG 지식이 다른 언어 모델을 실험하여 도메인 지식의 영향을 평가.
Contrastive Learning for Multi Label ECG Classification with Jaccard Score Based Sigmoid Loss

실험 결과

연구 질문

  • RQ1SigLIP 기반 ECG 인코더가 실세계 ECG 데이터의 다중 소견을 처리할 수 있는가?
  • RQ2Jaccard 기반 시그모이드 손실이 표준 SigLIP 손실보다 다중 라벨 ECG 분류 성능을 향상시키는가?
  • RQ3임베딩 차원수와 랜덤 크롭이 다중 라벨 ECG 성능에 어떤 영향을 미치는가?
  • RQ4언어 모델의 ECG 도메인 지식이 사전학습 효과에 미치는 영향은 무엇인가?

주요 결과

지표표준수정된 손실
해밍 손실0.0665 ↓0.0451 ↓
정밀도(마이크로)0.5067 ↑0.3147 ↑
재현율(마이크로)0.0365 ↑0.3020 ↑
F1 점수(마이크로)0.0681 ↑0.3082 ↑
재합집합 지수0.0373 ↑0.0858 ↑
지표수정된 손실(Qwen3-8B)Gemma3-4b
해밍 손실0.0451 ↓0.0539 ↓
정밀도(마이크로)0.3147 ↑0.2451 ↑
재현율(마이크로)0.3020 ↑0.2970 ↑
F1 점수(마이크로)0.3082 ↑0.2686 ↑
재합집합 지수0.0858 ↑0.0736 ↑
지표Baseline임베딩 차원 256임베딩 차원 256 + 랜덤 크롭(250 에폭, 5k 워밍업)임베딩 차원 256 + 랜덤 크롭(600 에폭, 20k 워밍업)
해밍 손실0.0451 ↓0.0769 ↓0.0856 ↓0.0680 ↓
정밀도(마이크로)0.3147 ↑0.4097 ↑0.3824 ↑0.4898 ↑
재현율(마이크로)0.3020 ↑0.3521 ↑0.4636 ↑0.5165 ↑
F1 점수(마이크로)0.3082 ↑0.3788 ↑0.4191 ↑0.5028 ↑
재합집합 지수0.0858 ↑0.2218 ↑0.2827 ↑0.3495 ↑
  • Jaccard 유사성을 갖춘 수정 시그모이드 손실이 표준 SigLIP 손실보다 다중 라벨 지표를 향상(예: 해밍 손실 감소, F1 마이크로 증가, 재합집합 증가).
  • 임베딩 차원을 256으로 증가시키고 랜덤 크롭을 적용하면 성능이 크게 향상(F1 마이크로 최대 0.5028, 재합집합 최대 0.3495까지 증가).
  • 256차원의 임베딩과 랜덤 크롭을 사용하는 Baseline SigLIP은(600 에폭, 2만 워밍업) Baseline 대비 큰 이득(F1 마이크로 0.503 대 0.3082).
  • 언어 모델의 의료 지식 수준(Qwen3-8B 대 Gemma3-4B)이 제안된 손실과 상호작용할 때 마이크로 정밀도/재현율 및 재합집합 지수가 증가하는 경향이 있음.
  • 최종 모델은 라벨별로 해석이 가능해 특정 라벨은 예측이 쉬운 반면 일부 MI 관련 라벨은 어렵고, 다른 병원 데이터로 검증해도 성능 변화가 비교적 작음.
Contrastive Learning for Multi Label ECG Classification with Jaccard Score Based Sigmoid Loss

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.