[논문 리뷰] HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis
HEST-1k는 H&E WSIs 및 메타데이터와 함께 공간 전사체학의 대규모 페어 데이터셋을 제공하며, 멀티모달 조직 분석용 HEST-라이브러리와 HEST-벤치마크를 위한 기반 모델 평가를 제공합니다.
Spatial transcriptomics enables interrogating the molecular composition of tissue with ever-increasing resolution and sensitivity. However, costs, rapidly evolving technology, and lack of standards have constrained computational methods in ST to narrow tasks and small cohorts. In addition, the underlying tissue morphology, as reflected by H&E-stained whole slide images (WSIs), encodes rich information often overlooked in ST studies. Here, we introduce HEST-1k, a collection of 1,229 spatial transcriptomic profiles, each linked to a WSI and extensive metadata. HEST-1k was assembled from 153 public and internal cohorts encompassing 26 organs, two species (Homo Sapiens and Mus Musculus), and 367 cancer samples from 25 cancer types. HEST-1k processing enabled the identification of 2.1 million expression--morphology pairs and over 76 million nuclei. To support its development, we additionally introduce the HEST-Library, a Python package designed to perform a range of actions with HEST samples. We test HEST-1k and Library on three use cases: (1) benchmarking foundation models for pathology (HEST-Benchmark), (2) biomarker exploration, and (3) multimodal representation learning. HEST-1k, HEST-Library, and HEST-Benchmark can be freely accessed at https://github.com/mahmoodlab/hest.
연구 동기 및 목표
- 공간 전사체학과 H&E-염색 WSIs를 다양한 기관과 종에 걸쳐 연결하는 크고 표준화된 멀티모달 자원을 제공한다.
- 재현 가능한 벤치마킹 및 조직학과 멀티모달 조직 분석을 위한 기반 모델 개발을 가능하게 한다.
- curated 작업 및 도구를 통해 바이오마커 발견 및 발현-가이드 방식의 멀티모달 표현 학습을 촉진한다.
제안 방법
- 131개 코호트에서 25개 기관과 두 종에 걸쳐 1,108쌍의 ST 및 WSI 샘플을 수집했다.
- 일반적, 발현 및 조직학 디스크립터를 포함하는 통합 메타데이터 스키마를 구성했다.
- ST 스팟 주위의 20x 배율에서 조직 분할 및 224x224 패치를 통해 조직학을 처리했다; 1.5M 패치를 생성했다.
- 자동 조직 탐지 및 ST 스팟과 WSIs를 연결하기 위한 정렬을 제공했다.
- CellViT를 이용한 핵 분할/분류를 수행하여 슬라이드 전체에서 약 60M 핵을 얻었다.
- 원시 카운트와 WSIs 정렬을 포함한 Anndata/Scanpy 호환 객체로 발현 데이터를 통합했다.
- HEST-Library를 도입하여 HEST-1k를 조립/쿼리하고 HEST-Benchmark 실행을 가능하게 했다.
- 교차 데이터셋 매핑을 표준화하기 위한 자동 정렬 및 해상도 추론 파이프라인을 구현했다.
실험 결과
연구 질문
- RQ1대규모의 다양한 페어 ST와 WSI 데이터셋이 멀티모달 조직 표현 학습과 바이오마커 발견을 향상시킬 수 있는가?
- RQ2여러 기관 및 암 유형에 걸쳐 조직학으로부터 유전자 발현을 예측하는 데 있어 최신 패치 인코더의 성능은 얼마나 잘 나타나는가?
- RQ3질병 특정 데이터에 대한 조직학 인코더의 미세조정이 분자 상태 예측을 개선하는가?
- RQ4HEST-1k가 유전자 발현 예측 작업에서 조직학 기반의 기반 모델 벤치마킹을 견고하게 지원하는가?
- RQ5형태학에서 도출된 특징이 종양 영역의 유전자 발현과 어떤 상관관계를 보이며 발견에 도움을 주는가?
주요 결과
- HEST-1k는 25개 기관과 2종에 걸쳐 1,108샘플, 1.5M 표현–형태 쌍 및 60M 핵을 포함한다.
- HEST-벤치마크는 histology로부터의 유전자 발현 예측에 대해 10개의 패치-인코더 모델 간 다양한 성능을 보여주며, 언어 정렬 및 트랜스포머 기반 모델이 여러 과제에서 강력한 결과를 달성했다.
- 질병 특이 데이터(CONCH-FT)에 대한 패치 인코더 미세조정이 독립적인 유방암 코호트에서 분자 상태 예측(ER/PR/HER2)을 향상시켰다.
- 핵 크기 및 기타 형태학 특징이 특정 유전자 발현과 유의한 상관관계(GATA3과 IDC의 핵 영역 등)를 보이며 모양-분자 연계를 시사한다.
- HS-Collection과 HEST-Library는 자동 정렬, 패칭 및 데이터 표준화를 제공하여 레거시 ST 데이터셋에서의 확장 가능하고 재현 가능한 분석을 가능하게 한다.
- 다양한 모달리티를 정렬한 패치 인코더가 조직 특정 형태학 및 분자 풍경에 맞춰 추가 최적화될 수 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.