[論文レビュー] Neural Signals Generate Clinical Notes in the Wild
CELMは長時間EEGから多セクションの臨床レポートを生成する初の臨床 EEG-to-language ファウンデーションモデルで、コンテキストあり・なし設定の両方でベースラインを上回る。エポックレベルのEEGトークン化、シーケンス感知型整列、プロンプト駆動生成を組み合わせ、約11k時間のEEGデータから約1万件近いレポートを評価対象とする。
Generating clinical reports that summarize abnormal patterns, diagnostic findings, and clinical interpretations from long-term EEG recordings remains labor-intensive. We curate a large-scale clinical EEG dataset with $9{,}922$ reports paired with approximately $11{,}000$ hours of EEG recordings from $9{,}048$ patients. We therefore develop CELM, the first clinical EEG-to-Language foundation model capable of summarizing long-duration, variable-length EEG recordings and performing end-to-end clinical report generation at multiple scales, including recording description, background activity, epileptiform abnormalities, events/seizures, and impressions. Experimental results show that, with patient history supervision, our method achieves $70\%$-$95\%$ average relative improvements in standard generation metrics (e.g., ROUGE-1 and METEOR) from $0.2$-$0.3$ to $0.4$-$0.6$. In the zero-shot setting without patient history, CELM attains generation scores in the range of $0.43$-$0.52$, compared to baselines of $0.17$-$0.26$. CELM integrates pretrained EEG foundation models with language models to enable scalable multimodal learning. We release our model and benchmark construction pipeline at https://github.com/Jathurshan0330/CELM.
研究の動機と目的
- エンドツーエンドのEEG-to-language生成を動機づけ、臨床EEGレポート作成の自動化を提案する。
- ハーバードEEGデータを用いたマルチサイト検証つきのスケーラブルなEEG–レポートベンチマークを作成する。
- エポック集約トークン化、シーケンス感知型整列、プロンプト融合を用いて多セクションレポートを生成するCELMを開発する。
- コンテキスト豊富・ゼロコンテキストの両方で強力なベースラインを上回る改善を示す。
- 将来のEEG言語モデリング研究を支援するコードとパイプラインを公開する。
提案手法
- エポック集約トークン化でEEGの数時間をエポックトークンのシーケンスに圧縮する。
- 長距離の時系列依存性を言語空間へ射影する前に保存するためのシーケンス感知型整列。
- プロンプト融合と生成によりEEG表現と任意の臨床文脈を条件付けして構造化レポートを生成するLLMを活用する。
- EEGエンコーダとLLMを凍結したまま次 token 目的でファインチューニングを行う。
- ハーバードEEGデータベースを用いた対になったEEGセッションとレポートを対象とするベンチマーク構築パイプライン。

実験結果
リサーチクエスチョン
- RQ1エンドツーエンドのEEG-to-languageモデルは長時間EEGから多セクションの臨床レポートを生成できるか。
- RQ2異なるEEG-to-language整列戦略はレポート品質と臨床忠実度にどう影響するか。
- RQ3臨床EEGレポート生成において患者歴史コンテキストを追加する利点とゼロコンテキスト生成の差は何か。
- RQ4LLMへ整列する際、圧縮されたEEG表現と非圧縮表現では性能ギャップはどの程度か。
- RQ5スケーラブルなEEG–レポートベンチマークは、EEG言語モデリングの前進に実用的か。
主な発見
| Setting | S0001 BLEU-1 | S0001 ROUGE-1 | S0001 METEOR | S0002 BLEU-1 | S0002 ROUGE-1 | S0002 METEOR |
|---|---|---|---|---|---|---|
| CELM-SCC | 0.3383 | 0.3843 | 0.2889 | 0.3767 | 0.4487 | 0.3232 |
| CELM | 0.4823 | 0.5565 | 0.4734 | 0.5695 | 0.6408 | 0.5597 |
- CELMはS0001でBLEU-1 0.4823、ROUGE-1 0.5565、METEOR 0.4734を達成し、S0002でコンテキストあり場合にROUGE-1 0.6408、METEOR 0.5597を達成し、全ベースラインを上回る。
- CELM-SCC(圧縮版)もベースラインを上回る(S0001でBLEU-1 0.3383、ROUGE-1 0.3843、METEOR 0.2889;S0002でROUGE-1 0.3767、ROUGE-1 0.4487、METEOR 0.3232)。
- ゼロコンテキスト設定(患者歴史なし)ではCELMがS0002でBLEU-1 0.4652、ROUGE-1 0.5248、METEOR 0.4390を達成し、ベースライン(約0.17–0.26程度)を大きく上回る。
- Sequence Context Alignment(SCA)は、LinearまたはPerceiver整列と比べて最良の性能と収束の速さを示すというアブレーション結果。
- セクション別分析ではCELMはほとんどのレポートセクションで優れているが、間発作性てんかん異常の限界は稀で複雑なイベントに起因。
- 本研究は、構造化臨床ノートを生成するエンドツーエンドのEEG-to-languageモデリングの実現性と大きな改善を示した。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。