[论文解读] Auto-Encoding Knowledge Graph for Unsupervised Medical Report Generation
本文提出 KGAE,一种使用预构建的知识图谱作为共享潜在空间来桥接图像与报告的无监督医学报告生成模型,能够在没有图像-报告配对的条件下生成报告,同时还支持半监督和有监督训练。
Medical report generation, which aims to automatically generate a long and coherent report of a given medical image, has been receiving growing research interests. Existing approaches mainly adopt a supervised manner and heavily rely on coupled image-report pairs. However, in the medical domain, building a large-scale image-report paired dataset is both time-consuming and expensive. To relax the dependency on paired data, we propose an unsupervised model Knowledge Graph Auto-Encoder (KGAE) which accepts independent sets of images and reports in training. KGAE consists of a pre-constructed knowledge graph, a knowledge-driven encoder and a knowledge-driven decoder. The knowledge graph works as the shared latent space to bridge the visual and textual domains; The knowledge-driven encoder projects medical images and reports to the corresponding coordinates in this latent space and the knowledge-driven decoder generates a medical report given a coordinate in this space. Since the knowledge-driven encoder and decoder can be trained with independent sets of images and reports, KGAE is unsupervised. The experiments show that the unsupervised KGAE generates desirable medical reports without using any image-report training pairs. Moreover, KGAE can also work in both semi-supervised and supervised settings, and accept paired images and reports in training. By further fine-tuning with image-report pairs, KGAE consistently outperforms the current state-of-the-art models on two datasets.
研究动机与目标
- 解决医学报告生成中对成对图像-报告数据集的依赖问题。
- 提出一个无监督框架,使用独立的图像集合和报告集合来生成医学报告。
- 利用预构建的医学知识图谱来桥接视觉和语言域。
- 在有可用的成对数据时,通过引入成对数据来实现半监督和有监督训练。
- 通过标准数据集的定量指标和人工评估来证明有效性。
提出的方法
- 从报告语料(如 MIMIC-CXR)构建一个预定义的医学知识图谱,节点表示常见异常和正常情况,边来自共现关系。
- 使用图卷积网络对知识图谱进行嵌入,获得知识空间中的节点嵌入 V'。
- 开发一个知识驱动的编码器(KE),通过对知识图谱的注意力,将图像(I)和报告(R)映射到共享空间 G_I 和 G_R 的潜在坐标,共享一个映射函数 F。
- 设计一个知识驱动的解码器,使用基于 Transformer 的长序列生成,具备知识驱动注意力(KA)和知识库 B,在解码阶段进行知识提炼与关注(R -> G_R -> R 训练;I -> G_I -> R 生成)。
- 通过从 G_R 重构 R(R -> G_R -> R)并使用交叉熵损失进行无监督训练;在推理时,从 G_I 生成 R(I -> G_I -> R)。
- 可选地通过将 I-R 配对引入到 I -> G_I -> R 流程并继续训练,以实现半监督或有监督微调。
实验结果
研究问题
- RQ1是否可以通过使用共享的潜在知识图谱空间在没有图像-报告配对的情况下实现医学报告生成?
- RQ2知识驱动的编码器/解码器在多大程度上利用独立的图像和报告数据来弥合视觉与语言之间的差距?
- RQ3在无监督 KGAE 的基础上,半监督或有监督微调对标准指标和临床有效性有何影响?
- RQ4该方法对不同知识图谱及其组成的鲁棒性如何?
- RQ5在不同训练设置下,该模型在 IU X-ray 和 MIMIC-CXR 数据集上是否达到有竞争力甚至是最先进的性能?
主要发现
| 方法 | 年份 | 配对比例 | IU X-ray [9] B-1 | IU X-ray [9] B-2 | IU X-ray [9] B-3 | IU X-ray [9] B-4 | IU X-ray [9] M | IU X-ray [9] R-L | MIMIC-CXR [17] B-1 | MIMIC-CXR [17] B-2 | MIMIC-CXR [17] B-3 | MIMIC-CXR [17] B-4 | MIMIC-CXR [17] M | MIMIC-CXR [17] R-L |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| NIC | 2015 | 100% | 0.216 | 0.124 | 0.087 | 0.066 | - | 0.306 | 0.299 | 0.184 | 0.121 | 0.084 | 0.263 | |
| AdaAtt | 2017 | 100% | 0.220 | 0.127 | 0.089 | 0.068 | - | 0.308 | 0.299 | 0.185 | 0.124 | 0.088 | 0.266 | |
| Att2in | 2017 | 100% | 0.224 | 0.129 | 0.089 | 0.068 | - | 0.308 | 0.325 | 0.203 | 0.136 | 0.096 | 0.276 | |
| Transformer | 2020 | 100% | 0.396 | 0.254 | 0.179 | 0.135 | 0.164 | 0.342 | 0.314 | 0.192 | 0.127 | 0.090 | 0.125 | 0.265 |
| M^2 Trans. | 2020 | 100% | 0.437 | 0.290 | 0.205 | 0.152 | 0.176 | 0.353 | 0.238 | 0.151 | 0.102 | 0.067 | 0.110 | 0.249 |
| R2Gen | 2020 | 100% | 0.470 | 0.304 | 0.219 | 0.165 | 0.187 | 0.371 | 0.353 | 0.218 | 0.145 | 0.103 | 0.142 | 0.277 |
| KGAE | Ours | 0% | 0.417 | 0.263 | 0.181 | 0.126 | 0.149 | 0.318 | 0.221 | 0.144 | 0.096 | 0.062 | 0.097 | 0.208 |
| KGAE-Semi | 60% | 0% | 0.497 | 0.320 | 0.232 | 0.171 | 0.189 | 0.379 | 0.352 | 0.219 | 0.149 | 0.108 | 0.147 | 0.290 |
| KGAE-Supervised | 100% | 0% | 0.512 | 0.327 | 0.240 | 0.179 | 0.195 | 0.383 | 0.369 | 0.231 | 0.156 | 0.118 | 0.153 | 0.295 |
- 无监督的 KGAE 在与有监督模型的比较中取得竞争性结果,并在 IU X-ray 与 MIMIC-CXR 上超越其中一些模型。
- 在半监督设置(60% 配对数据)下,KGAE 在各项指标上优于基线有监督模型,在非常低配对数据时收益更大。
- 在全监督设置下,KGAE-Supervised 在IU X-ray和MIMIC-CXR数据集的自然语言生成和临床有效性指标上设定新的最先进结果。
- 人工评估显示 KGAE 的变体在忠实性和全面性方面具有竞争力,在半监督或全监督条件下有显著提升。
- 该方法对不同知识图谱具有鲁棒性,在解码阶段受益于知识库机制。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。