Skip to main content
QUICK REVIEW

[论文解读] HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis

Guillaume Jaume, Paul Doucet|arXiv (Cornell University)|Jun 23, 2024
Cancer-related molecular mechanisms research被引用 21
一句话总结

HEST-1k 提供一个包含空间转录组学与 H&E 染色的 WSI 和元数据的大型成对数据集,以及用于多模态组织分析和基础模型评估的 HEST-Library 与 HEST-Benchmark。

ABSTRACT

Spatial transcriptomics enables interrogating the molecular composition of tissue with ever-increasing resolution and sensitivity. However, costs, rapidly evolving technology, and lack of standards have constrained computational methods in ST to narrow tasks and small cohorts. In addition, the underlying tissue morphology, as reflected by H&E-stained whole slide images (WSIs), encodes rich information often overlooked in ST studies. Here, we introduce HEST-1k, a collection of 1,229 spatial transcriptomic profiles, each linked to a WSI and extensive metadata. HEST-1k was assembled from 153 public and internal cohorts encompassing 26 organs, two species (Homo Sapiens and Mus Musculus), and 367 cancer samples from 25 cancer types. HEST-1k processing enabled the identification of 2.1 million expression--morphology pairs and over 76 million nuclei. To support its development, we additionally introduce the HEST-Library, a Python package designed to perform a range of actions with HEST samples. We test HEST-1k and Library on three use cases: (1) benchmarking foundation models for pathology (HEST-Benchmark), (2) biomarker exploration, and (3) multimodal representation learning. HEST-1k, HEST-Library, and HEST-Benchmark can be freely accessed at https://github.com/mahmoodlab/hest.

研究动机与目标

  • 提供一个大型、标准化的多模态资源,将空间转录组学与 H&E 染色的 WSI 跨多种器官和物种进行连接。
  • 实现可重复的基准测试与基础模型在组织学和多模态组织分析方面的开发。
  • 通过策划的任务与工具促进生物标志物发现和表达驱动的多模态表征学习。

提出的方法

  • 汇编了来自131个队列、覆盖25个器官和两种物种的1,108对成对的 ST 与 WSI 样本。
  • 统一的元数据架构,涵盖通用、表达和组织学描述。
  • 通过组织分割对组织学进行处理,并在 ST 点周围以 20x 放大率生成 224x224 的补丁,总计生成 1.5M 个补丁。
  • 提供自动的组织检测与对齐,将 ST 点与 WSIs 连接起来。
  • 使用 CellViT 进行细胞核分割/分类,在切片中获得约 6000 万个细胞核。
  • 将表达数据统一为与 Anndata/Scanpy 兼容的对象,包含原始计数并与 WSIs 对齐。
  • 引入 HEST-Library,用于汇集/查询 HEST-1k 并实现 HEST-Benchmark 的执行。
  • 实现自动对齐和分辨率推断流程,以标准化跨数据集的映射。

实验结果

研究问题

  • RQ1一个大型、多样化的成对 ST 与 WSI 数据集是否能够提升多模态组织表示学习和生物标志物发现?
  • RQ2最先进的补丁编码器在跨多个器官和癌症类型的组织学中,预测基因表达的能力如何?
  • RQ3在疾病特异性数据上微调组织学编码器以提升分子状态预测的效用如何?
  • RQ4HEST-1k 能否为组织学的基础模型在基因表达预测任务上提供稳健的基准测试?
  • RQ5形态衍生特征如何与肿瘤区域的基因表达相关,以帮助发现?

主要发现

  • HEST-1k 包含 1,108 个样本、1.5M 表达–形态对和 60M 细胞核,覆盖 25 个器官和 2 个物种。
  • HEST-Benchmark 显示在 10 种补丁编码器模型中,用于从组织学预测基因表达的性能各异,语言对齐和基于变换器的模型在若干任务中取得了强劲结果。
  • 在疾病特异性数据上微调补丁编码器(CONCH-FT)可在独立的乳腺癌队列中改进下游分子状态预测(ER/PR/HER2)。
  • 核大小和其他形态特征与某些基因表达(如 IDC 中 GATA3 与核面积)存在显著相关性,体现了形态-分子之间的联系。
  • HS-Collection 和 HEST-Library 提供自动对齐、打 Patch 和数据标准化,支持在历史 ST 数据集上的可扩展、可重复分析。
  • 用于多模态学习的 HEST 表明,模态对齐的补丁编码器可以进一步优化以适应组织特定形态与分子景观。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。