QUICK REVIEW

[论文解读] Federated pretraining and fine tuning of BERT using clinical notes from multiple silos

Dianbo Liu, Timothy A. Miller|arXiv (Cornell University)|Feb 20, 2020

Topic Modeling参考文献 18被引用 23

一句话总结

该论文提出了一种联邦学习框架，可在不共享原始数据的情况下，对来自多个医疗保健机构的临床病历记录进行 BERT 的预训练和微调。通过在多个数据孤岛中使用 MIMIC-III 出院总结对 BERT 模型进行去中心化训练，该方法实现了具有竞争力的性能——尤其在联邦预训练与集中式微调结合时表现更优，证明了隐私保护型临床 NLP 的可行性。

ABSTRACT

Large scale contextual representation models, such as BERT, have significantly advanced natural language processing (NLP) in recently years. However, in certain area like healthcare, accessing diverse large scale text data from multiple institutions is extremely challenging due to privacy and regulatory reasons. In this article, we show that it is possible to both pretrain and fine tune BERT models in a federated manner using clinical texts from different silos without moving the data.

研究动机与目标

在不传输原始数据的前提下，实现对来自多个医疗保健机构的临床文本进行隐私保护型 BERT 预训练。
探究联邦学习是否能有效捕捉临床病历中的领域特定语言模式。
评估联邦微调在下游 NLP 任务（如命名实体识别 NER）中的性能表现。
将联邦训练性能与集中式训练进行对比，以量化‘联邦通信损失’。
分析联邦与集中式 BERT 模型中的注意力机制，以评估模型行为及与基础 BERT 模型的相似性。

提出的方法

通过按患者随机分割 MIMIC-III 出院总结数据集，模拟了 5 个医疗数据孤岛。
借鉴 Alsentzer 等人（2019）的预处理与分词流程，用于临床文本处理。
在所有孤岛中初始化相同的 BERT 模型，并在每轮训练后通过全局参数平均实现联邦模型聚合。
在多个孤岛的未标注临床病历上，使用掩码语言建模进行联邦预训练。
使用标注的 i2b2 数据集进行联邦微调以完成 NER 任务，各站点的模型更新被聚合。
使用 Jensen-Shannon 散度与注意力熵，比较不同 BERT 变体之间的注意力头行为。

实验结果

研究问题

RQ1能否在不共享数据的前提下，利用来自多个独立医疗保健机构的临床病历记录，实现 BERT 的有效联邦预训练？
RQ2在下游临床 NLP 任务（如 NER）中，联邦 BERT 模型的性能与集中式训练模型相比如何？
RQ3在不同数据孤岛中分离预训练与微调对模型性能有何影响？
RQ4联邦 BERT 模型中的注意力机制与集中式及基础 BERT 模型相比有何异同？
RQ5联邦学习在多大程度上保留了临床文本中的领域特定语言特征？

主要发现

在多个数据孤岛中对临床病历进行联邦预训练，i2b2 2010 NER 任务的 F1 得分为 0.808，i2b2 2012 任务为 0.715，证明了无需数据共享即可实现可行的预训练。
当预训练为联邦方式而微调为集中式时，模型在 i2b2 2010 上达到 0.820 的 F1，在 i2b2 2012 上为 0.735，与完整集中式训练相比仅下降约 5%，表现优异。
当预训练为集中式而微调为联邦方式时，F1 分数下降不足 2%（i2b2 2010 为 0.843，i2b2 2012 为 0.731），表明微调对去中心化具有更强的鲁棒性。
当预训练与微调均采用联邦方式时，F1 分数为 0.808（i2b2 2010）和 0.715（i2b2 2012），与集中式训练相比性能下降约 6%，表明整体性能仍具可接受性。
注意力分析显示，联邦临床 BERT 模型与基础 BERT 模型的斯皮尔曼等级相关系数为 0.96，而与集中式 ClinicalBERT 模型的相关系数仅为 0.27，表明其更保留了基础 BERT 的注意力模式。
联邦临床 BERT 与基础 BERT 之间的 Jensen-Shannon 散度为 8153.26，而与集中式 ClinicalBERT 的距离仅为 314.38，表明其注意力行为更接近集中式模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。