[论文解读] Probing Biomedical Embeddings from Language Models
本文探究了领域特定语言模型生成的生物医学上下文词嵌入,将 BioELMo 和 BioBERT 视为固定特征提取器,对比其在探针任务中的表现。尽管微调后的 BioBERT 在下游任务中表现更优,但 BioELMo 在作为固定特征提取器时表现更佳,尤其在编码实体类型和生物医学关系(特别是疾病-症状与疾病-药物相互作用)方面,通过可视化和最近邻分析得以验证。
Contextualized word embeddings derived from pre-trained language models (LMs) show significant improvements on downstream NLP tasks. Pre-training on domain-specific corpora, such as biomedical articles, further improves their performance. In this paper, we conduct probing experiments to determine what additional information is carried intrinsically by the in-domain trained contextualized embeddings. For this we use the pre-trained LMs as fixed feature extractors and restrict the downstream task models to not have additional sequence modeling layers. We compare BERT, ELMo, BioBERT and BioELMo, a biomedical version of ELMo trained on 10M PubMed abstracts. Surprisingly, while fine-tuned BioBERT is better than BioELMo in biomedical NER and NLI tasks, as a fixed feature extractor BioELMo outperforms BioBERT in our probing tasks. We use visualization and nearest neighbor analysis to show that better encoding of entity-type and relational information leads to this superiority.
研究动机与目标
- 理解领域内上下文嵌入(如 BioELMo 和 BioBERT)中编码的内在信息。
- 在不依赖微调的前提下,比较 BioELMo 和 BioBERT 作为固定特征提取器在探针任务中的性能。
- 确定领域特定预训练是否增强了对生物医学实体类型和关系知识的编码。
- 探究为何尽管结构更简单,BioELMo 在固定特征探针设置中仍优于 BioBERT。
- 表征不同嵌入在捕捉生物医学中与任务相关的语言和关系信号方面的有效性。
提出的方法
- 使用双向 LSTM 和可学习层权重,在 1000 万篇 PubMed 摘要上训练 BioELMo,采用 ELMo 框架。
- 将 BioBERT(在生物医学文本上预训练的 BERT 模型)作为固定特征提取的对比基准。
- 设计两项探针任务:一项用于生物医学 NER(端到端跨度识别与分类),另一项用于 NLI(蕴含预测),仅以嵌入作为输入。
- 应用最近邻分析,评估同一实体类型或关系类型在嵌入空间中的表示聚类紧密程度。
- 通过可视化注意力机制和表示聚类,比较不同模型对实体类型和关系信息的编码方式。
- 使用保留的 MedNLI 测试集上的子集准确率验证探针性能,并分析最近邻聚类与任务准确率之间的相关性。
实验结果
研究问题
- RQ1领域内上下文嵌入(如 BioELMo 和 BioBERT)在编码生物医学实体类型方面,与通用领域对应模型相比表现如何?
- RQ2BioELMo 和 BioBERT 中内在编码了哪些特定的语言或关系信息,从而促使其在固定特征提取中表现优异?
- RQ3为何 BioELMo 在探针任务中表现优于 BioBERT,尽管 BioBERT 在下游任务微调后性能更优?
- RQ4不同嵌入在嵌入空间中对同一生物医学关系类型(如疾病-症状、疾病-药物)的表示聚类效果如何?
- RQ5架构设计(基于 LSTM 的 ELMo 与基于 Transformer 的 BERT)在多大程度上影响了生物医学文本中上下文与关系信息的编码?
主要发现
- 尽管 BioBERT 在 NER 和 NLI 任务上的微调性能更优,BioELMo 在作为固定特征提取器的探针任务中显著优于 BioBERT。
- BioELMo 在相同关系类型上的最近邻(NN)比例平均达到 57.5%,而 BioBERT 为 47.1%,表明其对关系信息的聚类效果更优。
- BioELMo 在 MedNLI 测试子集上达到 73.9% 的子集准确率,优于 BioBERT(71.4%)和 BERT-tog(65.0%),且最近邻聚类与任务性能之间存在显著相关性(r=0.52)。
- 可视化结果显示,BioELMo 更好地将同一实体类型(如雌激素受体与内质网)的提及聚类在一起,而 BERT 的表示则在不同类型间散乱分布。
- 由于 LSTM 的循环特性,BioELMo 比 BERT 更有效地编码了括号中包裹的实体名称等上下文线索,从而影响了表示学习。
- BioELMo 在编码疾病-症状关系(54.2% vs. 44.5%)和疾病-药物关系(32.8% vs. 26.1%)方面显著优于 ELMo 和 BioBERT,表明其关系编码能力更强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。