Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Multimodal Representation Learning across Medical Images and Reports

Tzu-Ming Harry Hsu, Wei‐Hung Weng|arXiv (Cornell University)|Nov 21, 2018
Multimodal Machine Learning Applications参考文献 21被引用 27
一句话总结

本文提出了一种基于 MIMIC-CXR 数据集的无监督和弱监督联合表示学习方法,用于胸部 X 光图像与放射科报告之间的对齐。通过嵌入对齐和对抗性训练对图像和文本嵌入进行对齐,该方法在仅使用 0.1% 标注数据的情况下,实现了与完全监督方法相当的性能,表明极少的标注数据即可显著提升局部和全局指标下的检索质量。

ABSTRACT

Joint embeddings between medical imaging modalities and associated radiology reports have the potential to offer significant benefits to the clinical community, ranging from cross-domain retrieval to conditional generation of reports to the broader goals of multimodal representation learning. In this work, we establish baseline joint embedding results measured via both local and global retrieval methods on the soon to be released MIMIC-CXR dataset consisting of both chest X-ray images and the associated radiology reports. We examine both supervised and unsupervised methods on this task and show that for document retrieval tasks with the learned representations, only a limited amount of supervision is needed to yield results comparable to those of fully-supervised methods.

研究动机与目标

  • 建立基于检索和距离度量的医学图像与放射科报告联合嵌入方法的基线。
  • 评估不同监督水平对联合嵌入空间中表示质量的影响。
  • 分析放射科报告不同部分(如发现与印象)对嵌入性能的影响。
  • 证明无监督预训练结合极少监督可实现与完全监督模型相当的强检索性能。

提出的方法

  • 使用 TF-IDF 提取二元语法、GloVe 嵌入,或通过深度平均网络(DAN)编码器微调的句子/段落嵌入来提取文本特征。
  • 从预训练的 DenseNet-121 的最后一个瓶颈层提取图像特征,并通过主成分分析(PCA)降维至 64 维。
  • 通过线性变换实现图像与文本嵌入的对齐,采用嵌入对齐(EA)方法,最小化投影后图像与文本特征之间的弗罗贝尼乌斯范数。
  • 采用对抗性训练学习一个域不变的投影矩阵,使判别器难以区分图像与文本模态。
  • 模型采用半监督目标进行训练,通过调整用于监督的配对数据比例来控制监督程度。
  • 评估采用局部检索(直接图像-报告配对)和全局检索(ICD-9 编码分组),使用 nDCG@100、MRR 和余弦相似度等指标。

实验结果

研究问题

  • RQ1无监督联合嵌入学习能否在医学图像-报告配对上实现与完全监督方法相当的检索性能?
  • RQ2监督程度(配对数据比例)如何影响联合嵌入空间中表示的质量?
  • RQ3使用放射科报告的不同部分(如发现与印象)是否会导致表示质量和检索性能的显著差异?
  • RQ4不同文本特征提取方法(二元语法、句子嵌入、段落嵌入)在联合表示学习中的性能表现如何比较?
  • RQ5在大规模未配对数据上进行无监督预训练,再结合极少监督,能否带来显著的性能提升?

主要发现

  • 仅使用 0.1% 的监督数据,模型在 nDCG@100 上达到 0.69,接近完全监督模型的性能(0.70),表明极少标注即可带来显著收益。
  • 基于报告中“发现”部分训练的模型在余弦相似度和 MRR 指标上优于“印象”部分,可能是因为“发现”部分对图像-模式关系的描述更一致。
  • “印象”部分的 nDCG@100(0.169)高于“发现”部分(0.163),因为 nDCG 与疾病相关,而“印象”部分整合了更多临床上下文信息。
  • 句子和段落嵌入的性能低于二元语法 TF-IDF 特征,可能是因为其在预训练阶段与医学领域语言的对齐效果较差。
  • 无监督 Procrustes 优化偶尔能提升性能,但并非始终有益。
  • 对抗性训练与 Procrustes 优化结合段落嵌入的方法,在所有无监督方法中取得了最高的 nDCG@100(0.169)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。