QUICK REVIEW

[论文解读] Computing patient similarity based on unstructured clinical notes

Petr Zelina, Marko Řeháček|arXiv (Cornell University)|Jan 12, 2026

Machine Learning in Healthcare被引用 0

一句话总结

本文提出一个模块化管道，通过将每位患者表示为笔记嵌入矩阵并用多种相似性度量比较矩阵，来从非结构化的临床笔记中计算患者相似性。它在具有专家注释的捷克乳腺癌数据集上，评估了多种嵌入技术、过滤策略和矩阵相似性方法。

ABSTRACT

Clinical notes hold rich yet unstructured details about diagnoses, treatments, and outcomes that are vital to precision medicine but hard to exploit at scale. We introduce a method that represents each patient as a matrix built from aggregated embeddings of all their notes, enabling robust patient similarity computation based on their latent low-rank representations. Using clinical notes of 4,267 Czech breast-cancer patients and expert similarity labels from Masaryk Memorial Cancer Institute, we evaluate several matrix-based similarity measures and analyze their strengths and limitations across different similarity facets, such as clinical history, treatment, and adverse events. The results demonstrate the usefulness of the presented method for downstream tasks, such as personalized therapy recommendations or toxicity warnings.

研究动机与目标

通过从非结构化的电子病历笔记中派生患者相似性来推动精准医疗，当结构化数据稀少时。
开发一种表示，使每位患者成为嵌入笔记的矩阵，以实现鲁棒的相似性计算。
在临床相关类别上评估多种嵌入技术、过滤方案和基于矩阵的相似性度量。

提出的方法

按相似性类别对临床笔记进行分段和过滤，以聚焦相关内容。
使用 LSA、Doc2Vec 或基于 transformers 的嵌入对过滤后的笔记进行向量化，形成患者笔记矩阵。
通过对成对患者矩阵应用 RV 系数、MaxMax，或基于编辑距离的度量来计算患者相似性。
在带有临床医生提供的相似性注释的验证研究中，使用 Kendall tau 评估组合的表现。
分析超参数和笔记过滤对类别特定性能的影响。
提供一个组合嵌入集成，以在不同变体间稳定结果。

实验结果

研究问题

RQ1是否可以通过将单条笔记嵌入聚合为患者级矩阵，从非结构化临床笔记中有效推导患者相似性？
RQ2哪些笔记向量化、过滤和矩阵相似性方法的组合最能反映专家在临床有意义的相似性类别上的判断？
RQ3分段级过滤是否提高了计算相似性与临床医生给定相似性之间的一致性？
RQ4不同向量化技术（LSA、Doc2Vec、变换器嵌入）与矩阵相似性度量在性能和可扩展性方面有何交互？
RQ5在提出的表示中，哪些相似性类别最易预测，哪些最难预测？

主要发现

表现最佳的选项是将组合嵌入与 RV 系数相似性（Rrv2）结合使用，在多个类别上表现稳健。
对某些向量化方法，尤其是 Vlsa 和组合嵌入，过滤能提升性能。
Doc2Vec（Vd2v）在多种配置下表现较差，特别是在高维和有过滤的情况下。
研究识别出六个类别，其中相似性预测 largely 随机，凸显了局限性和类别特定数据问题。
评注者间的一致性因类别而异，社会史、过敏史和副作用显示出相对较低的一致性。
组合嵌入集成在参数选择上稳定了性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。