[논문 리뷰] Cell-Type Prototype-Informed Neural Network for Gene Expression Estimation from Pathology Images
본 연구는 scRNA-seq 데이터에서 파생된 세포타입 프로토타입을 활용하여 예측을 규제하고 해석하기 위해 슬라이드 수준 및 패치 수준의 유전자 발현을 병리 이미지에서 추정하는 세포타입 프로토타입 인지 신경망(CPNN)을 제시한다.
Estimating slide- and patch-level gene expression profiles from pathology images enables rapid and low-cost molecular analysis with broad clinical impact. Despite strong results, existing approaches treat gene expression as a mere slide- or spot-level signal and do not incorporate the fact that the measured expression arises from the aggregation of underlying cell-level expression. To explicitly introduce this missing cell-resolved guidance, we propose a Cell-type Prototype-informed Neural Network (CPNN) that leverages publicly available single-cell RNA-sequencing datasets. Since single-cell measurements are noisy and not paired with histology images, we first estimate cell-type prototypes-mean expression profiles that reflect stable gene-gene co-variation patterns.CPNN then learns cell-type compositional weights directly from images and models the relationship between prototypes and observed bulk or spatial expression, providing a biologically grounded and structurally regularized prediction framework. We evaluate CPNN on three slide-level datasets and three patch-level spatial transcriptomics datasets. Across all settings, CPNN achieves the highest performance in terms of Spearman correlation. Moreover, by visualizing the inferred compositional weights, our framework provides interpretable insights into which cell types drive the predicted expression. Code is publicly available at https://github.com/naivete5656/CPNN.
연구 동기 및 목표
- 전체 슬라이드 이미지를 세포타입 발현의 혼합으로 추정하는 것을 동기 부여한다.
- 모달리티 격차에도 불구하고 추정을 정규화하고 안내하기 위해 scRNA-seq로부터의 세포타입 프로토타입을 도입한다.
- 이미지에서 파생된 세포타입 구성을 세포 수준 프로토타입과 연결하는 확률모형을 개발한다.
- 슬라이드 수준 및 패치 수준 데이터셋에서 CP NN를 평가하여 성능과 해석가능성을 입증한다.
제안 방법
- 이미지에서 도출된 가중치를 가진 세포타입 프로토타입의 가중합으로 슬라이드 수준 발현을 정의한다.
- 배치 보정이 있는 음이항 회귀를 통해 scRNA-seq 데이터로부터 세포타입 프로토타입을 생성한다.
- 학습 가능한 MLP와 소프트맥스(softmax)를 이용해 이미지 특징에서 패치 수준 구성 가중치를 추정하여 세포타입 비율을 얻는다.
- 관찰된 유전자 발현을 음이항 우도로 모델링하고 모달리티 보정 매개변수 alpha와 beta를 적용한다.
- 프로토타입과 디컨볼루션-유도 가중치를 연결하는 정규화 항을 포함하여 일관성과 해석가능성을 향상시킨다.
- ST 데이터에 대해 NB 손실을 Pearson 상관 기반 손실로 대체하여 패치 수준 예측으로 프레임워크를 확장한다.

실험 결과
연구 질문
- RQ1scRNA-seq로부터 얻은 세포타입 프로토타입이 WSI 기반 유전자 발현 추정을 향상시키기 위한 생물학적으로 근거 있는 사전 지식을 제공할 수 있는가?
- RQ2세포타입 구성을 통합하는 것이 다양한 데이터셋에서 슬라이드 수준 및 패치 수준 발현 정확도를 향상시키는가?
- RQ3단일세포와 벌크/공간 데이터 간 모달리티 간격이 성능에 어떤 영향을 미치며 보정 항이 이를 완화할 수 있는가?
- RQ4추정된 세포타입 가중치가 어떤 세포타입이 예측을 이끄는지에 대한 해석가능한 통찰을 제공하는가?
주요 결과
| 방법 | BRCA PCC | BRCA SCC | KIRC PCC | KIRC SCC | LUAD PCC | LUAD SCC |
|---|---|---|---|---|---|---|
| Ours | 0.304 | 0.338 | 0.291 | 0.318 | 0.271 | 0.304 |
- CPNN은 BRCA, KIRC, LUAD의 세 가지 슬라이드 수준 데이터셋과 세 가지 패치 수준 데이터셋에서 가장 높은 스피어만 상관계수를 달성한다.
- 프로토타입 기반 정규화 및 모달리티 보정은 모달리티 간격에 대한 강건성을 향상시킨다.
- 시각화된 구성 가중치가 BRCA 하위형 생물학과 알려진 것과 일치하여 해석 가능한 세포타입 기여를 제공한다.
- 패치 수준 모델에 CP NN을 통합하면 CSCC, Her2st, STNet 데이터셋에서 SCC를 일관되게 향상시킨다.
- 차단(아블레이션) 연구는 성능을 위한 프로토타입 초기화, 모달리티 보정, 프로토타입 업데이트 및 정규화의 중요성을 보여준다.
- 해상도 연구는 중간에서 미세한 세포타입 라벨이 가장 잘 작동하고, 거친 라벨은 성능을 저하시킨다고 나타낸다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.