[论文解读] Progress Notes Classification and Keyword Extraction using Attention-based Deep Learning Models with BERT
本文提出一种基于注意力机制的深度学习框架,采用微调后的 BERT 并增加注意力层,用于将临床病程记录分类为 12 种医学类别,并提取可解释的关键字。该模型实现了 97.6% 的分类准确率,并通过注意力权重有效突出语义相关词汇,相较于标准 BERT 模型展现出更高的可解释性。
Various deep learning algorithms have been developed to analyze different types of clinical data including clinical text classification and extracting information from 'free text' and so on. However, automate the keyword extraction from the clinical notes is still challenging. The challenges include dealing with noisy clinical notes which contain various abbreviations, possible typos, and unstructured sentences. The objective of this research is to investigate the attention-based deep learning models to classify the de-identified clinical progress notes extracted from a real-world EHR system. The attention-based deep learning models can be used to interpret the models and understand the critical words that drive the correct or incorrect classification of the clinical progress notes. The attention-based models in this research are capable of presenting the human interpretable text classification models. The results show that the fine-tuned BERT with the attention layer can achieve a high classification accuracy of 97.6%, which is higher than the baseline fine-tuned BERT classification model. In this research, we also demonstrate that the attention-based models can identify relevant keywords that are strongly related to the clinical progress note categories.
研究动机与目标
- 开发可解释的深度学习模型,用于将去标识化的临床病程记录分类为 12 种医学类别。
- 探究深度学习模型中的注意力机制如何突出驱动分类决策的关键词汇。
- 比较不同嵌入策略——基于 BERT 的标记嵌入、词嵌入和独热编码——在分类与关键字提取性能上的差异。
- 评估注意力模型在跨多样化医学专科中识别临床相关关键字的有效性。
- 通过可视化高注意力词汇并分析其在各类别中的频率与相关性,提升模型的可解释性。
提出的方法
- 对微调后的 BERT 添加额外的自注意力层,以提升分类性能与可解释性。
- 训练了三种不同模型:微调 BERT 加注意力(FT-BERT+Att)、预训练 BERT 加注意力与 BiLSTM(PT-BERT+Att+BiLSTM),以及独热编码嵌入加注意力与 BiLSTM(OE+Att+BiLSTM)。
- 利用注意力权重识别并突出输入句子中的重要词汇,实现模型推理过程的可视化。
- 通过聚合正确分类样本中高注意力词汇(去除停用词后),提取各类别下的高频关键字。
- 使用分类准确率评估模型性能,并通过人工检查与重叠分析评估关键字的相关性。
- 应用注意力阈值筛选与停用词过滤,以优化关键字提取,减少低信号词的干扰。
实验结果
研究问题
- RQ1与标准微调 BERT 相比,基于注意力机制的深度学习模型是否能提升临床病程记录的分类准确率?
- RQ2注意力机制在多大程度上能够识别与病程记录真实类别一致的临床相关关键字?
- RQ3不同嵌入策略——标记级(BERT)、词级与独热编码——如何影响提取关键字的质量与相关性?
- RQ4注意力层的集成是否通过突出临床文本中具有意义且语境相关的词汇,增强了模型的可解释性?
- RQ5不同模型间提取的关键字一致性如何?这又对注意力机制解释的可靠性意味着什么?
主要发现
- FT-BERT+Att 模型取得了最高的分类准确率 97.6%,优于基线微调 BERT 模型。
- 注意力机制成功在乳腺保健类别中突出显示了临床相关关键字,如 'breast'(乳腺)、'carcinoma'(癌)和 'biopsy'(活检),且各模型间重叠度高。
- 在大多数类别中,FT-BERT+Att 与 PT-BERT+Att+BiLSTM 模型识别出 1–3 个高度相关的关键字,而 OE+Att+BiLSTM 模型表现较差,尤其在减重科(准确率 33%)与疼痛管理类别中。
- 独热编码嵌入模型常将 'old'(年老)等常见词汇误判为高注意力关键字,反映出其缺乏语义理解能力,表明其在捕捉上下文意义方面存在局限。
- 基于 BERT 的模型间关键字重叠显著高于与独热模型的重叠,表明上下文嵌入对实现有意义的注意力解释至关重要。
- 在应用停用词过滤与注意力阈值筛选后,独热模型在部分类别中无法提取出十个相关关键字,进一步凸显其在关键字提取中的不稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。