[论文解读] Clinical Concept Extraction with Contextual Word Embedding
作者在临床领域数据上训练了一个领域特定的 ELMo 模型,并使用 BiLSTM-CRF 进行临床概念提取,在 2010 i2b2/VA 数据集上实现了最先进的 F1。
Automatic extraction of clinical concepts is an essential step for turning the unstructured data within a clinical note into structured and actionable information. In this work, we propose a clinical concept extraction model for automatic annotation of clinical problems, treatments, and tests in clinical notes utilizing domain-specific contextual word embedding. A contextual word embedding model is first trained on a corpus with a mixture of clinical reports and relevant Wikipedia pages in the clinical domain. Next, a bidirectional LSTM-CRF model is trained for clinical concept extraction using the contextual word embedding model. We tested our proposed model on the I2B2 2010 challenge dataset. Our proposed model achieved the best performance among reported baseline models and outperformed the state-of-the-art models by 3.4% in terms of F1-score.
研究动机与目标
- 推动从非结构化临床笔记中自动提取临床概念(问题、治疗、检查)。
- 通过利用在临床领域语料库上训练的上下文词嵌入来应对标注数据不足的问题。
- 提出一种将领域特定的 ELMo 嵌入与 BiLSTM-CRF 相结合的模型,用于临床文本的命名实体识别。
- 在 2010 i2b2/VA 数据集上进行评估,以证明相对于最先进基线的性能提升。
提出的方法
- 在混合临床语料库上训练一个领域特定的 ELMo 模型(包括临床报告和与 SNOMED CT 相关的 Wikipedia 页面,以及 MIMIC-III 出院摘要和放射学报告)。
- 在 ELMo 中使用一个字符级卷积神经网络词嵌入层和两个双向 LSTM 层来产生上下文化的标记表示。
- 将 ELMo 表示整合到一个两层的双向 LSTM-CRF,用于使用 BIO 标记的临床概念提取。
- 在命名实体识别训练期间固定 ELMo 参数,同时学习聚合权重和 ELMo 基于特征的缩放参数。
- 使用 Adam、dropout 进行训练,进行 10 轮的 ELMo 训练,然后对 NER 模型进行 200 轮训练。
实验结果
研究问题
- RQ1领域特定的上下文词嵌入是否能提升临床概念提取在相较于通用域嵌入的表现?
- RQ2在 i2b2/VA 概念提取中,使用在临床领域数据上训练的 ELMo 模型与在通用领域语料库上训练的模型相比,其影响如何?
- RQ3提出的 ELMo+BiLSTM-CRF 模型与 2010 年 i2b2/VA 数据集上的最先进基线相比表现如何?
主要发现
| 方法 | 精确度 | 召回率 | F1 |
|---|---|---|---|
| Distributional semantics CRF [ 3 ] * | 85.60 | 82.00 | 83.70 |
| Hidden semi-Markov model [ 2 ] * | 86.88 | 83.64 | 85.23 |
| Truecasing CRFSuite [ 4 ] | 80.83 | 71.47 | 75.86 |
| CliNER [ 5 ] | 79.5 | 81.2 | 80.0 |
| Binarized neural embedding CRF [ 23 ] | 85.10 | 80.60 | 82.80 |
| Glove-BiLSTM-CRF [ 6 ] | 84.36 | 83.41 | 83.88 |
| CliNER 2.0 [ 7 ] | 84.0 | 83.6 | 83.8 |
| Att-BiLSTM-CRF + Transfer [ 8 ] | 86.27 | 85.15 | 85.71 |
| ELMo(General) + BiLSTM-CRF (Single) ** | 83.26±0.25 | 81.84±0.22 | 82.54±0.14 |
| ELMo(Clinical) + BiLSTM-CRF (Single) ** | 87.44±0.27 | 86.25±0.26 | 86.84±0.16 |
| ELMo(Clinical) + BiLSTM-CRF (Ensemble) | 89.34 | 87.87 | 88.60 |
- 领域特定的 ELMo(临床)+ BiLSTM-CRF 在 i2b2/VA 的 F1 上优于包括通用领域 ELMo 在内的其他方法。
- ELMo(Clinical) + BiLSTM-CRF 集成达到 F1=88.60,精确度 89.34,召回率 87.87。
- ELMo(Clinical) + BiLSTM-CRF (Ensemble) 模型在 F1 上超越此前的状态最先进水平 3.4%。
- 在临床命名实体识别任务中,训练领域特定的语言模型对获得高性能至关重要。
- 该模型在三种实体类型:problem、treatment、test 上的表现一致。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。