QUICK REVIEW

[論文レビュー] Contrastive Learning for Multi Label ECG Classification with Jaccard Score Based Sigmoid Loss

Junichiro Takahashi, Masataka Sato|arXiv (Cornell University)|Feb 11, 2026

ECG Monitoring and Analysis被引用数 0

ひとこと要約

本論文は実世界データを用いて SigLIP でECGエンコーダを訓練し、Jaccardベースのシグモイド損失を導入して真のマルチラベルECG分類を可能にし、マイクロ-F1とJaccardスコアの改善を達成。埋め込みサイズとデータ拡張のさらなる利点も示す。

ABSTRACT

Recent advances in large language models (LLMs) have enabled the development of multimodal medical AI. While models such as MedGemini achieve high accuracy on VQA tasks like USMLE MM, their performance on ECG based tasks remains limited, and some models, such as MedGemma, do not support ECG data at all. Interpreting ECGs is inherently challenging, and diagnostic accuracy can vary depending on the interpreter's experience. Although echocardiography provides rich diagnostic information, it requires specialized equipment and personnel, limiting its availability. In this study, we focus on constructing a robust ECG encoder for multimodal pretraining using real world hospital data. We employ SigLIP, a CLIP based model with a sigmoid based loss function enabling multi label prediction, and introduce a modified loss function tailored to the multi label nature of ECG data. Experiments demonstrate that incorporating medical knowledge in the language model and applying the modified loss significantly improve multi label ECG classification. To further enhance performance, we increase the embedding dimensionality and apply random cropping to mitigate data drift. Finally, per label analysis reveals which ECG findings are easier or harder to predict. Our study provides a foundational framework for developing medical models that utilize ECG data.

研究の動機と目的

現実世界の病院データを用いた堅牢なマルチモーダルECGエンコードを用いたマルチラベル予測を動機づける。
ECG所見のJaccard類似度を組み込んだ修正シグモイド損失を開発・検証する。
ECG事前学習における医療知識を備えた言語モデルの影響を評価する。
データドリフトを緩和するための高次元埋め込みやランダムクロッピングなどの改善を検討する。

提案手法

ECGエンコーダとして1D ResNet-18を使用し、言語モデルとしてQwen3-8Bを採用する。
標準のCrossEntropyベースのCLIP損失をシグモイドベースの損失（SigLIP）に置換し、マルチラベル予測を扱うためのJaccardベースのeye行列を導入する。
12誘導、500 Hz、10秒の実世界ECGデータ33,732件を訓練に用い、所見を説明するテキストキャプションを併用する。
標準のSigLIP損失と、Jaccard類似度をバッチ相互作用に組み込んだ修正Sigmoid損失を比較する。
ハミング損失、マイクロ精度、マイクロ再現率、マイクロF1、Jaccard指数で評価し、埋め込みサイズとデータ拡張（ランダムクロップ）のアブレーションを実施する。
言語モデルのECG知識の有無によるドメイン知識の影響を評価する。

Contrastive Learning for Multi Label ECG Classification with Jaccard Score Based Sigmoid Loss

実験結果

リサーチクエスチョン

RQ1実世界のECGデータからのマルチラベル所見をSigLIPベースのECGエンコーダは扱えるか？
RQ2Jaccardベースのシグモイド損失は標準のSigLIP損失に比べてマルチラベルECG分類性能を改善するか？
RQ3埋め込み次元とランダムクロッピングはマルチラベルECG性能にどのような影響を与えるか？
RQ4ECGドメイン知識を持つ言語モデルが事前学習の有効性に与える影響は何か？

主な発見

指標	標準	修正損失
ハミング損失	0.0665 ↓	0.0451 ↓
Precision (Micro)	0.5067 ↑	0.3147 ↑
Recall (Micro)	0.0365 ↑	0.3020 ↑
F1スコア (Micro)	0.0681 ↑	0.3082 ↑
Jaccard指数	0.0373 ↑	0.0858 ↑
指標	修正損失 (Qwen3-8B)	Gemma3-4b
ハミング損失	0.0451 ↓	0.0539 ↓
Precision (Micro)	0.3147 ↑	0.2451 ↑
Recall (Micro)	0.3020 ↑	0.2970 ↑
F1スコア (Micro)	0.3082 ↑	0.2686 ↑
Jaccard指数	0.0858 ↑	0.0736 ↑
指標	Baseline	Embedding dim 256	Embedding dim 256 + random crop (250 epoch, 5k warmup)	Embedding dim 256 + random crop (600 epoch, 20k warmup)
ハミング損失	0.0451 ↓	0.0769 ↓	0.0856 ↓	0.0680 ↓
Precision (Micro)	0.3147 ↑	0.4097 ↑	0.3824 ↑	0.4898 ↑
Recall (Micro)	0.3020 ↑	0.3521 ↑	0.4636 ↑	0.5165 ↑
F1スコア (Micro)	0.3082 ↑	0.3788 ↑	0.4191 ↑	0.5028 ↑
Jaccard指数	0.0858 ↑	0.2218 ↑	0.2827 ↑	0.3495 ↑

Jaccard類似性を用いた修正シグモイド損失は、標準のSigLIP損失よりマルチラベル指標を改善（ハミング損失が低下、F1ミクロが高く、Jaccardが高い）。
埋め込み次元を256に拡大し、ランダムクロッピングを適用すると性能が大幅に向上（F1ミクロ最大0.5028、Jaccard最大0.3495）。
256次元埋め込みとランダムクロップを用いたベースラインSigLIPは、基準と比較して大きな改善を示す（F1ミクロ0.503対0.3082）。
言語モデルにおける医療知識（Qwen3-8B対Gemma3-4B）は、提案損失と相関してミクロ精度/再現率およびJaccardの向上に寄与する。
最終モデルはラベルごとの洞察を提供し、例えば低EFと心房細動は予測しやすい一方、MI関連ラベルの一部は難しく、別の病院データでの評価でも性能が比較的安定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。