Skip to main content
QUICK REVIEW

[논문 리뷰] Histo-Genomic Knowledge Distillation For Cancer Prognosis From Histopathology Whole Slide Images

Zhikang Wang, Yumeng Zhang|arXiv (Cornell University)|2024. 03. 15.
AI in cancer detection인용 수 5
한 줄 요약

G-HANet은 훈련 중 histo-genomic 지식을 증류하여 WSI 기반 암 예후를 향상시키고, 테스트 시 게놈 데이터 없이 단일 모달 추론을 가능하게 한다.

ABSTRACT

Histo-genomic multi-modal methods have recently emerged as a powerful paradigm, demonstrating significant potential for improving cancer prognosis. However, genome sequencing, unlike histopathology imaging, is still not widely accessible in underdeveloped regions, limiting the application of these multi-modal approaches in clinical settings. To address this, we propose a novel Genome-informed Hyper-Attention Network, termed G-HANet, which is capable of effectively distilling the histo-genomic knowledge during training to elevate uni-modal whole slide image (WSI)-based inference for the first time. Compared with traditional knowledge distillation methods (i.e., teacher-student architecture) in other tasks, our end-to-end model is superior in terms of training efficiency and learning cross-modal interactions. Specifically, the network comprises the cross-modal associating branch (CAB) and hyper-attention survival branch (HSB). Through the genomic data reconstruction from WSIs, CAB effectively distills the associations between functional genotypes and morphological phenotypes and offers insights into the gene expression profiles in the feature space. Subsequently, HSB leverages the distilled histo-genomic associations as well as the generated morphology-based weights to achieve the hyper-attention modeling of the patients from both histopathology and genomic perspectives to improve cancer prognosis. Extensive experiments are conducted on five TCGA benchmarking datasets and the results demonstrate that G-HANet significantly outperforms the state-of-the-art WSI-based methods and achieves competitive performance with genome-based and multi-modal methods. G-HANet is expected to be explored as a useful tool by the research community to address the current bottleneck of insufficient histo-genomic data pairing in the context of cancer prognosis and precision oncology.

연구 동기 및 목표

  • 비용이 많이 드는 게놈 시퀀싱에 대한 의존도를 줄이고, 훈련 중에 히스토-유전체 쌍을 활용한다는 동기를 제시한다.
  • 다중 모달 학습 신호의 이점을 활용하는 단일 모달 WSI 예후 모델을 개발한다.
  • WSIs로부터 기능 유전체를 재구성하기 위한 교차 모달 연결 분기(CAB)를 제안한다.
  • 조직학 정보와 증류된 게놈 정보를 융합하여 예후를 예측하는 하이퍼-어텐션 생존 분기를 도입한다.
  • 최신의 단일 모달 및 다중 모달 방법과 대비하여 TCGA 데이터셋에서 개선을 입증한다.

제안 방법

  • WSIs를 기능적 범주별로 패치와 유전자들의 가방으로 구성한다.
  • WSIs로부터 기능적 유전자를 재구성하기 위해 다중-head 교차 주의를 갖춘 교차 모달 연결 분기(CAB)를 사용한다.
  • 고차원 유전자 기능을 모델링하고 Fp에서 Xg를 재구성하기 위해 자기 정규화 네트워크를 사용한다.
  • 형태 기반 주의와 게놈 정보를 통합하는 히스토-유전체 하이퍼-어텐션(HM) 모듈을 도입하여 예후를 예측한다.
  • 생존(음의 로그 가능도)과 게놈 재구성(MSE 및 스케일된 코사인 오차)을 결합한 합동 손실로 학습한다.
  • 추론 시에는 게놈 처리 부분을 배제하므로 WSIs만 의존한다.

실험 결과

연구 질문

  • RQ1Histo-genomic 데이터의 다중 모달 학습 신호가 단일 모달 WSI 기반 예후를 개선할 수 있는가?
  • RQ2교차 모달 상호작용을 WSI 표현으로 증류하여 생존 예측을 강화할 수 있는가?
  • RQ3형태학적 신호와 증류된 게놈 신호의 하이퍼-attention 융합이 기존의 WSI 기반 및 다중 모달 접근법보다 우수한가?
  • RQ4상위-k 패치를 선택하는 것이 예후 성능에 어떤 영향을 미치는가?

주요 결과

방법병리게놈지식 증류BLCABRCAGBMLGGLUADUCEC종합
Ours0.630 ± 0.0320.664 ± 0.0650.817 ± 0.0220.612 ± 0.0280.729 ± 0.0500.690
  • G-HANet은 genome-based 및 다중 모달 방법과 비교해 다섯 개의 TCGA 데이터셋에서 경쟁력 있는 성능을 보이며, 전체 c-index는 0.690이다.
  • GBMLGG에서 G-HANet은 데이터셋별 최적 c-index인 0.817을 달성한다.
  • BRCA에서 G-HANet은 0.664를 달성하여 많은 WSI 기반 기준선을 상회한다.
  • 최신의 WSI 기반 방법과 비교할 때 G-HANet은 주목할 만한 개선을 보인다(예: BRCA, LUAD, UCEC).
  • 모델은 데이터셋 간 강한 로버스트성을 보이고 다중 모달 지식을 단일 모달 추론으로 증류하는 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.