[论文解读] Cell-Type Prototype-Informed Neural Network for Gene Expression Estimation from Pathology Images
本工作提出一种细胞类型原型感知神经网络(CPNN),通过利用来自 scRNA-seq 数据的细胞类型原型,将病理图像中的滑片级和块级基因表达估计为混合表达,并对预测进行正则化与解释。
Estimating slide- and patch-level gene expression profiles from pathology images enables rapid and low-cost molecular analysis with broad clinical impact. Despite strong results, existing approaches treat gene expression as a mere slide- or spot-level signal and do not incorporate the fact that the measured expression arises from the aggregation of underlying cell-level expression. To explicitly introduce this missing cell-resolved guidance, we propose a Cell-type Prototype-informed Neural Network (CPNN) that leverages publicly available single-cell RNA-sequencing datasets. Since single-cell measurements are noisy and not paired with histology images, we first estimate cell-type prototypes-mean expression profiles that reflect stable gene-gene co-variation patterns.CPNN then learns cell-type compositional weights directly from images and models the relationship between prototypes and observed bulk or spatial expression, providing a biologically grounded and structurally regularized prediction framework. We evaluate CPNN on three slide-level datasets and three patch-level spatial transcriptomics datasets. Across all settings, CPNN achieves the highest performance in terms of Spearman correlation. Moreover, by visualizing the inferred compositional weights, our framework provides interpretable insights into which cell types drive the predicted expression. Code is publicly available at https://github.com/naivete5656/CPNN.
研究动机与目标
- 以将全片内的基因表达估计为细胞类型表达混合的动机
- 结合来自 scRNA-seq 的细胞类型原型,对估计进行正则化和引导,尽管模态差距存在
- 开发一个将图像衍生的细胞类型组成与细胞水平原型联系起来的概率模型
- 在滑片级和块级数据集上评估 CP NN,以展示性能与可解释性
提出的方法
- 将滑片级表达定义为带有图像衍生权重的细胞类型原型加权和
- 通过带批次校正的负二项回归从 scRNA-seq 数据生成细胞类型原型
- 使用可学习的多层感知机(MLP)和 softmax 从图像特征估计块级组成权重以获得细胞类型比例
- 用负二项分布似然来建模观察到的基因表达,并应用模态校正参数 alpha 和 beta
- 加入一个正则化项,将原型与来自去卷积的权重绑定,以提高一致性和可解释性
- 通过在 ST 数据上用皮尔逊相关基的损失替代 NB 损失,将框架扩展到块级预测

实验结果
研究问题
- RQ1来自 scRNA-seq 的细胞类型原型是否能提供生物学依据的先验知识,从而改善基于 WSI 的基因表达估计?
- RQ2引入细胞类型组成是否能在多样化数据集上提升滑片级和块级表达的准确性?
- RQ3单细胞与 bulk/空间数据之间的模态差距如何影响性能,是否有纠正项能缓解?
- RQ4推断出的细胞类型权重是否能提供可解释的见解,指示哪些细胞类型推动了预测?
主要发现
| 方法 | BRCA PCC | BRCA SCC | KIRC PCC | KIRC SCC | LUAD PCC | LUAD SCC |
|---|---|---|---|---|---|---|
| Ours | 0.304 | 0.338 | 0.291 | 0.318 | 0.271 | 0.304 |
- CPNN 在三个滑片级数据集(BRCA、KIRC、LUAD)和三个块级数据集上均达到最高的 Spearman 相关性
- 原型感知的正则化和模态校正提升对模态差距的鲁棒性
- 可视化的组成权重与 BRCA 亚型生物学的已知特征对齐,提供可解释的细胞类型贡献
- 将 CP NN 整合入块级模型在 CSCC、Her2st、STNet 数据集上持续提升 SCC
- 消融研究显示原型初始化、模态校正、原型更新和正则化对于性能的重要性
- 粒度研究表明中至细粒度的细胞类型标签效果最好,粗粒度标签性能下降

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。