[論文レビュー] Cell-Type Prototype-Informed Neural Network for Gene Expression Estimation from Pathology Images
この研究は、scRNA-seqデータから派生した細胞タイププロトタイプを利用して病理画像からスライド全体およびパッチレベルの遺伝子発現を推定するCell-type Prototype-informed Neural Network(CPNN)を提案し、予測を正則化・解釈可能にする。
Estimating slide- and patch-level gene expression profiles from pathology images enables rapid and low-cost molecular analysis with broad clinical impact. Despite strong results, existing approaches treat gene expression as a mere slide- or spot-level signal and do not incorporate the fact that the measured expression arises from the aggregation of underlying cell-level expression. To explicitly introduce this missing cell-resolved guidance, we propose a Cell-type Prototype-informed Neural Network (CPNN) that leverages publicly available single-cell RNA-sequencing datasets. Since single-cell measurements are noisy and not paired with histology images, we first estimate cell-type prototypes-mean expression profiles that reflect stable gene-gene co-variation patterns.CPNN then learns cell-type compositional weights directly from images and models the relationship between prototypes and observed bulk or spatial expression, providing a biologically grounded and structurally regularized prediction framework. We evaluate CPNN on three slide-level datasets and three patch-level spatial transcriptomics datasets. Across all settings, CPNN achieves the highest performance in terms of Spearman correlation. Moreover, by visualizing the inferred compositional weights, our framework provides interpretable insights into which cell types drive the predicted expression. Code is publicly available at https://github.com/naivete5656/CPNN.
研究の動機と目的
- 全スライド画像からの遺伝子発現を細胞タイプ表現の混合として推定することを動機づける。
- modalityギャップにも関わらずscRNA-seqからの細胞タイププロトタイプを取り入れて推定を正則化・誘導する。
- 画像由来の細胞タイプ組成を細胞レベルのプロトタイプへリンクする確率モデルを開発する。
- CPNNをスライドレベルおよびパッチレベルのデータセットで評価し、性能と解釈性を示す。
提案手法
- スライドレベルの発現を、画像由来のウェイトを用いた細胞タイププロトタイプの加重和として定義する。
- バッチ調整を伴うネガティブビノミアル回帰によってscRNA-seqデータから細胞タイププロトタイプを生成する。
- パッチレベルの組成ウェイトを、学習可能なMLPとsoftmaxを用いて画像特徴から推定し、細胞タイプの割合を得る。
- 観測された遺伝子発現をネガティブビノミアル尤度でモデル化し、モダリティ補正パラメータalphaとbetaを適用する。
- プロトタイプとデコンボリューション由来のウェイトを結ぶ正則化項を組み込み、一貫性と解釈性を向上させる。
- NB損失をPearson相関ベースの損失へ置換して、STデータのパッチレベル予測へ拡張する。

実験結果
リサーチクエスチョン
- RQ1scRNA-seq由来の細胞タイププロトタイプはWSIベースの遺伝子発現推定を生物学的に根拠づけた事前情報を提供できるか。
- RQ2細胞タイプ組成の組み込みは、スライドレベルおよびパッチレベルの発現精度を多様なデータセットで向上させるか。
- RQ3単一細胞データとバルク/空間データ間のモダリティギャップは性能にどう影響し、補正項はそれを緩和できるか。
- RQ4推定された細胞タイプウェイトは、どの細胞タイプが予測を推進しているかの解釈可能な洞察を提供するか。
主な発見
| Method | BRCA PCC | BRCA SCC | KIRC PCC | KIRC SCC | LUAD PCC | LUAD SCC |
|---|---|---|---|---|---|---|
| Ours | 0.304 | 0.338 | 0.291 | 0.318 | 0.271 | 0.304 |
- CPNNは、3つのスライドレベルデータセット(BRCA、KIRC、LUAD)と3つのパッチレベルデータセットで最も高いSpearman相関を達成する。
- プロトタイプ情報付き正則化とモダリティ補正は、モダリティギャップに対するロバスト性を向上させる。
- 視覚化された組成ウェイトはBRCAサブタイプの既知の生物学と一致し、解釈可能な細胞タイプ寄与を提供する。
- CPNNをパッチレベルモデルへ統合すると、CSCC、Her2st、STNetデータセットでSCCが一貫して改善される。
- アブレーション研究は、性能のためにはプロトタイプ初期化、モダリティ補正、プロトタイプ更新、正則化の重要性を示す。
- 粒度の中〜細かい細胞タイプラベルが最も良い性能を示し、粗いラベルは性能を低下させる。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。