[論文レビュー] HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis
HEST-1k は H&E WSIs とメタデータを備えた空間トランスクリプトミクスの大規模ペアデータセット、および多模態組織解析と基盤モデル評価のための HEST-Library と HEST-Benchmark を提供します。
Spatial transcriptomics enables interrogating the molecular composition of tissue with ever-increasing resolution and sensitivity. However, costs, rapidly evolving technology, and lack of standards have constrained computational methods in ST to narrow tasks and small cohorts. In addition, the underlying tissue morphology, as reflected by H&E-stained whole slide images (WSIs), encodes rich information often overlooked in ST studies. Here, we introduce HEST-1k, a collection of 1,229 spatial transcriptomic profiles, each linked to a WSI and extensive metadata. HEST-1k was assembled from 153 public and internal cohorts encompassing 26 organs, two species (Homo Sapiens and Mus Musculus), and 367 cancer samples from 25 cancer types. HEST-1k processing enabled the identification of 2.1 million expression--morphology pairs and over 76 million nuclei. To support its development, we additionally introduce the HEST-Library, a Python package designed to perform a range of actions with HEST samples. We test HEST-1k and Library on three use cases: (1) benchmarking foundation models for pathology (HEST-Benchmark), (2) biomarker exploration, and (3) multimodal representation learning. HEST-1k, HEST-Library, and HEST-Benchmark can be freely accessed at https://github.com/mahmoodlab/hest.
研究の動機と目的
- 多様な臓器と種にわたる空間トランスクリプトミクスと H&E 染色 WSIs を関連付ける、 大規模で標準化された、多模态リソースを提供する。
- 組織病理組織学と多模态組織解析の基盤モデルの再現性のあるベンチマーク作成と開発を可能にする。
- キュレーションされたタスクとツールを通じて、バイオマーカー発見と発現ガイド付きの多模态表現学習を促進する。
提案手法
- 131 コホート、25 臓器、2 種にまたがる 1,108 ペアの ST と WSI サンプルを収集した。
- 汎用・発現・組織学記述子を含む統一 metadata スキーマ。
- 組織分割を用いた組織学の処理と、STスポット周囲の 224x224 パッチを 20x 放大で作成; 1.5M パッチを生成。
- STスポットとWSIsを結びつける自動組織検出とアライメントを提供。
- CellViT による核のセグメンテーション/分類を実施し、スライド全体で約 60M 核を取得。
- 生データカウントと WSIs へのアライメントを含む、Anndata/Scanpy 互換オブジェクトへ発現データを統合。
- HEST-Library を導入し、HEST-1k の組み立て/照会と HEST-Benchmark 実行を可能にする。
- データセット間のマッピングを標準化するための自動アライメントと解像度推定パイプラインを実装。
実験結果
リサーチクエスチョン
- RQ1大規模で多様なペアSTとWSIデータセットは、多模態組織表現学習とバイオマーカー探索を改善できますか?
- RQ2最先端のパッチエンコーダーは、複数の臓器と癌種にわたるヒストロジーから遺伝子発現をどれだけ正確に予測しますか?
- RQ3病因特異データで組織学エンコーダをファインチューニングすることは、分子状態予測の改善にどの程度有用ですか?
- RQ4HEST-1k は、遺伝子発現予測タスクにおける組織学の基盤モデルの堅牢なベンチマークを可能にしますか?
- RQ5形態由来の特徴が腫瘍領域の遺伝子発現とどのように相関し、発見を支援しますか?
主な発見
- HEST-1k は 25 臓器と 2 種にわたり、1,108 サンプル、1.5M expression–morphology ペア、および 60M 核を含みます。
- HEST-Benchmark は、ヒストロジーからの遺伝子発現予測のための10のパッチエンコーダーモデル間で多様な性能を示し、言語整列型およびトランスフォーマーベースのモデルがいくつかのタスクで優れた結果を達成します。
- 病因特異データ(CONCH-FT)でパッチエンコーダをファインチューニングすると、独立した乳がんコホートで下流の分子状態予測(ER/PR/HER2)が改善されます。
- 核サイズやその他の形態特徴は、特定の遺伝子発現(例: IDC における核面積と GATA3)と有意な相関を示し、形態分子の連関を示します。
- HS-Collection と HEST-Library は自動アライメント、パッチ作成、データ標準化を提供し、従来の ST データセット全体でスケーラブルで再現性のある解析を可能にします。
- 多模态学習のための HEST は、モダリティ整列パッチエンコーダーを、組織特異的な形態と分子学的景観のためにさらに最適化できることを示しています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。