QUICK REVIEW

[论文解读] Hurtful Words: Quantifying Biases in Clinical Contextual Word Embeddings

Haoran Zhang, Amy X. Lu|arXiv (Cornell University)|Mar 11, 2020

Artificial Intelligence in Healthcare and Education参考文献 69被引用 29

一句话总结

本文研究了在 MIMIC-III 病历上微调的临床 BERT 嵌入表示中与性别、语言、种族和保险状态相关的偏见，采用对数概率偏见分数和公平性度量进行分析。研究发现，主流群体在性能上存在显著优势，模型对边缘化患者生成了更多有害的建议，且警告称对抗性去偏方法并不能完全解决偏见问题。

ABSTRACT

In this work, we examine the extent to which embeddings may encode marginalized populations differently, and how this may lead to a perpetuation of biases and worsened performance on clinical tasks. We pretrain deep embedding models (BERT) on medical notes from the MIMIC-III hospital dataset, and quantify potential disparities using two approaches. First, we identify dangerous latent relationships that are captured by the contextual word embeddings using a fill-in-the-blank method with text from real clinical notes and a log probability bias score quantification. Second, we evaluate performance gaps across different definitions of fairness on over 50 downstream clinical prediction tasks that include detection of acute and chronic conditions. We find that classifiers trained from BERT representations exhibit statistically significant differences in performance, often favoring the majority group with regards to gender, language, ethnicity, and insurance status. Finally, we explore shortcomings of using adversarial debiasing to obfuscate subgroup information in contextual word embeddings, and recommend best practices for such deep embedding models in clinical settings.

研究动机与目标

调查临床上下文词嵌入是否编码了与性别、语言、种族和保险状态等受保护属性相关的偏见。
使用对数概率偏见分数和公平性度量，量化下游临床预测任务中模型行为的差异。
评估对抗性去偏在减轻临床 BERT 表示中子群体偏见方面的有效性。
强调在医疗领域部署偏见模型的风险，尤其是在高风险临床决策支持系统中。
推荐在临床环境中开发公平、可靠且公平的 NLP 系统的最佳实践。

提出的方法

在 MIMIC-III 数据集中 150 万条临床病历上微调一个从 SciBERT 初始化的 BERT 模型，以建立临床 BERT 基线。
使用真实的临床病历模板进行填空任务，计算性别代词的对数概率偏见分数，衡量模型在将性别与医疗情境关联时的信心程度。
使用三种公平性定义（人口均等、对正负类别的机会均等）评估 50 多项下游临床预测任务中的公平性。
在微调过程中应用对抗性去偏，以混淆表示中的受保护属性信息，评估其对公平性和性能的影响。
通过在不同种族和性别提示下生成临床建议的定性分析，比较不同受保护群体的模型行为。
将 ICD-9 编码作为下游任务的黄金标准标签，尽管承认基于收费的编码可能存在标签偏见和错误。

实验结果

研究问题

RQ1临床 BERT 嵌入在在多大程度上编码了受保护属性（如性别、种族）与临床状况之间的偏见关系？
RQ2在使用 BERT 表示的下游临床预测任务中，性能差异如何在受保护群体之间表现？
RQ3对抗性去偏是否能有效减少临床 NLP 模型中的子群体性能差距？
RQ4在临床病历上预训练对模型在医疗文本中性别关联上的置信度有何影响？
RQ5在 MIMIC-III 上微调后，临床语境中男性与女性代词的对数概率偏见分数有何差异？

主要发现

临床 BERT 模型在性别、语言、种族和保险状态等受保护群体之间表现出统计上显著的性能差异，主流群体的准确率更高。
在临床病历上微调后，对数概率偏见分数上升，表明模型在将性别与特定医疗状况关联方面变得更加自信，超出了生物学关联的范围。
在填空任务中，即使临床背景保持不变，模型对非裔美国患者生成的临床建议也比对白人患者更具有危害性或不适当。
对抗性去偏并未完全消除性能差距，反而可能掩盖而非消除潜在偏见，引发了其在临床环境中可靠性的担忧。
研究发现，嵌入中的偏见并非仅源于数据不平衡，而是被模型从临床文本中学习并编码刻板印象的能力所放大。
在医疗领域，人口均等等公平性定义存在问题，因为临床结果不能以牺牲患者安全为代价来换取公平性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。