Skip to main content
QUICK REVIEW

[논문 리뷰] A joint model of unpaired data from scRNA-seq and spatial transcriptomics for imputing missing gene expression measurements

Romain Lopez, Achille Nazaret|arXiv (Cornell University)|2019. 05. 06.
Single-cell and spatial transcriptomics참고 문헌 14인용 수 59
한 줄 요약

이 논문은 unpaired scRNA-seq와 공간 전사체 데이터를 공동으로 통합하여 missing gene expression을 추정하는 깊은 생성 모델 gimVI를 소개하며, 도메인 적응에서 영감을 받은 잠재 공간 정렬을 이용한 변분 프레임워크를 사용합니다.

ABSTRACT

Spatial studies of transcriptome provide biologists with gene expression maps of heterogeneous and complex tissues. However, most experimental protocols for spatial transcriptomics suffer from the need to select beforehand a small fraction of genes to be quantified over the entire transcriptome. Standard single-cell RNA sequencing (scRNA-seq) is more prevalent, easier to implement and can in principle capture any gene but cannot recover the spatial location of the cells. In this manuscript, we focus on the problem of imputation of missing genes in spatial transcriptomic data based on (unpaired) standard scRNA-seq data from the same biological tissue. Building upon domain adaptation work, we propose gimVI, a deep generative model for the integration of spatial transcriptomic data and scRNA-seq data that can be used to impute missing genes. After describing our generative model and an inference procedure for it, we compare gimVI to alternative methods from computational biology or domain adaptation on real datasets and outperform Seurat Anchors, Liger and CORAL to impute held-out genes.

연구 동기 및 목표

  • unpaired scRNA-seq와 공간 전사체 데이터를 통합하여 공간 분석에서의 누락 유전자 발현을 추정하는 동기를 부여한다.
  • 공유 잠재 구조를 활용하여 모달리티 간 정보를 전달하는 확률적 생성 모델을 개발한다.
  • 예상 발현에 대한 후방 분포를 제공하여 불확실성 인식을 가능하게 한다.
  • 변분 추론과 신경망에 기반한 확장 가능한 추론 프레임워크를 제공한다.
  • 실제 데이터 쌍에서 gimVI를 최첨단 방법과 비교하여 통합 품질과 추정 정확도를 평가한다.

제안 방법

  • 공유 잠재 z를 가진 변분 오토인코더 기반 모델인 gimVI를 제안하며, 세포와 모달리티 특이 구성 요소를 가진 공유 잠재 z를 사용한다.
  • 공유 생물학을 잠재 z ~ N(0,I)와 모듈 indicator s에 대해 뉴럴 네트워크 fη를 통해 z로부터 ρ를 생성하는 형태로 모델링한다.
  • scRNA-seq의 경우 xng를 ell(로그-정규 깊이 프록시), ρng, 분산 θg, 그리고 유전자별 평균-분산 조정을 위한 신경망 fν로 매개화하는 ZINB(또는 NB) 분포로 모델링한다.
  • 공간 데이터의 경우 ρ를 공간 유전자 서브셋 G′로 정규화하고 x′n,g′를 Poisson(osmFISH) 또는 NB(starMAP)로 조건화하여 ell′, z, s, θ′을 반영하여 프로토콜 특이적 가변성을 반영한다.
  • 후방 qφ(z,ℓ|x,s) 및 qψ(z|x′,s)을 모달리티 간 공유 인코더 구성요소로 가우시안 변분 분포를 통해 추론한다.
  • 복원 항과 KL 정규화를 결합한 모달리티 특이적 변분 하한점을 최적화한다: Eq. (13) 및 Eq. (14).
  • 누락된 유전자 g ∈ G\G′의 추정을 pΘ(z|x′,s=1)에서 샘플링한 z와 fη를 사용하여 x*g(z)를 계산하는 방식으로 수행하며, 도메인 적응 이론에 기반한 dH-다이버전스를 적대적 손실로 근사하여 평가한다.

실험 결과

연구 질문

  • RQ1unpaired scRNA-seq와 공간 전사체 데이터를 공유 잠재 공간에 통합하여 공간 분석의 누락 유전자의 정확한 추정을 가능하게 할 수 있는가?
  • RQ2확률적이고 깊은 생성적 접근(gimVI)이 잠재 공간 통합과 유전자 추정 모두에서 기존 통합 방법(Liger, Seurat)을 능가하는가?
  • RQ3통합과 추정 사이의 트레이드오프를 제어하는 조정 가능한 κ 매개변수가 추정 성능과 잠재 공간 정렬에 어떤 영향을 미치는가?
  • RQ4gimVI가 추정된 유전자 발현에 대한 불확실성 추정치를 제공할 수 있으며, 이러한 불확실성은 얼마나 신뢰할 수 있는가?
  • RQ5gimVI는 다양한 공간 모달리티(osmFISH, starMAP) 및 조직 맥락에서 얼마나 강건한가?

주요 결과

알고리즘mSMS ρ~mSMS δρ~mPFC ρ~mPFC δρ~
Seurat0.15-57%0.08-55%
Liger0.22-28%0.09-55%
scVI0.20-36%0.06-65%
CORAL0.18-38%0.17-15%
gimVI κ=10.30-12%0.22-3%
gimVI κ=00.33_0.22_
gimVI κ=κ*0.37+23%0.22+3%
  • gimVI는 두 데이터셋을 공동 잠재 공간에서 잘 통합하여 MIXING의 엔트로피가 높고 baselines에 비해 경쟁적이거나 우수한 k-NN 순도를 보인다.
  • held-out 유전자를 추정할 때, κ가 조정 가능한 범위에 있는 gimVI는 CORAL, Seurat, Liger, scVI에 비해 중앙값 Spearman 상관계수를 크게 향상시킨다.
  • 원칙적 κ 설정(κ*은 (0,1))은 여러 경우에서 κ=0 또는 κ=1보다 성능이 우수할 수 있으며, 이는 데이터에 의존적인 통합과 정확한 추정 간의 트레이드오프를 강조한다.
  • gimVI는 포스터리어 샘플링을 통해 추정값의 불확실성 추정을 제공하여 예측 신뢰도를 평가하고 예측하기 어려운 유전자에서 더 높은 불확실성을 드러낸다.
  • 정성적으로, gimVI를 사용한 추정 표현은 Lamp5 마커 패턴과 같은 알려진 공간 모티프와 더 잘 정합되는 공간적 일관성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.