[论文解读] WeNLEX: Weakly Supervised Natural Language Explanations for Multilabel Chest X-ray Classification
WeNLEX 是一个弱监督框架,利用图像驱动的忠实性和分布对齐的可信性,为多标签胸腔X光预测生成忠实且看起来可信的自然语言解释,既可在事后设置也可在模型内设置使用,并且可适配普通公众。
Natural language explanations provide an inherently human-understandable way to explain black-box models, closely reflecting how radiologists convey their diagnoses in textual reports. Most works explicitly supervise the explanation generation process using datasets annotated with explanations. Thus, though plausible, the generated explanations are not faithful to the model's reasoning. In this work, we propose WeNLEX, a weakly supervised model for the generation of natural language explanations for multilabel chest X-ray classification. Faithfulness is ensured by matching images generated from their corresponding natural language explanations with original images, in the black-box model's feature space. Plausibility is maintained via distribution alignment with a small database of clinician-annotated explanations. We empirically demonstrate, through extensive validation on multiple metrics to assess faithfulness, simulatability, diversity, and plausibility, that WeNLEX is able to produce faithful and plausible explanations, using as little as 5 ground-truth explanations per diagnosis. Furthermore, WeNLEX can operate in both post-hoc and in-model settings. In the latter, i.e., when the multilabel classifier is trained together with the rest of the network, WeNLEX improves the classification AUC of the standalone classifier by 2.21%, thus showing that adding interpretability to the training process can actually increase the downstream task performance. Additionally, simply by changing the database, WeNLEX explanations are adaptable to any target audience, and we showcase this flexibility by training a layman version of WeNLEX, where explanations are simplified for non-medical users.
研究动机与目标
- 通过生成直观易懂的 NLEs 以真实反映模型推理来推动医疗影像的可解释性。
- 开发一个弱监督框架,在有限的 Ground-Truth 解释下生成 NLEs。
- 通过一个小型临床医生标注的 NLE 数据库确保可信度,并在模型空间中通过图像特征重建来保持忠实性。
- 在事后和模型内训练设置中展示适用性,并展示潜在的任务性能提升。
提出的方法
- 采用预测-解释范式,为多标签胸腔X光分类生成每个预测标签的一个 NLE。
- 使用冻结的纯文本编码-解码器 NLE 生成器,通过参数高效微调使其能够接受图像特征、完整预测向量和目标诊断文本作为输入。
- 通过将分布对齐到一个小型 Ground-Truth NLE 嵌入数据库来实现可信度,使用 WGAN-GP 或最大均值差(MMD)实现。
- 通过特征空间重建损失来加强忠实性,其中生成的 NLE 通过 Text Embedding to Image 模块映射回图像,并与 MBE 的特征进行比较;此外,还强制 NLE 保留 MBE 的诊断预测。
- 在模型内训练时可选择性地与 NLE 生成共同更新分类器,并使用一个冻结的分类器副本来稳定训练;否则,在事后设置中,分类器保持冻结,同时学习 NLE。
- 将损失函数(可信度、NLE 分类对齐、图像特征重建)结合起来,使用自动权重来形成总体目标;在模型内的情况下再增加一个图像分类损失项以实现联合优化。

实验结果
研究问题
- RQ1一个弱监督框架是否能够为多标签胸腔X光预测生成忠实于模型推理的自然语言解释?
- RQ2将生成的 NLE 与一个小型临床医生标注的 NLE 数据库对齐(可信度)并强制实现图像特征重建(忠实性)是否能在不同评估指标上提升质量?
- RQ3WeNLEX 的解释是否可以通过改变 NLE 数据库来适应不同的受众(例如普通人)?
- RQ4事后和模型内训练设置在解释质量和下游分类性能方面是否存在差异?
- RQ5在训练期间引入 NLE 生成是否能提高分类器的下游 AUC?
主要发现
- WeNLEX 可以在每个诊断仅需要最少五个 Ground-Truth NLE 的条件下生成忠实且可信的 NLE。
- 基于 MMD 的可信度损失在将生成的 NLE 分布与 Ground-Truth NLE 嵌入对齐方面优于对抗性损失,并带来更高的可模拟性和可信度指标。
- 特征重建损失提升了 NLE 的忠实性和多样性,尽管在与 Ground-Truth NLE 的相似性上存在一定权衡。
- 在模型内训练的 NLE 训练在性能和保真度指标方面优于事后设置,在某些配置中还提升了下游 AUC。
- 一个面向非医用用户的普及版本的 WeNLEX 可以生成简化解释而不牺牲核心的忠实性收益。
- 该框架支持事后与模型内运行,并在多种评估维度(忠实性、可模拟性、多样性、可信度)上表现出鲁棒性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。