Skip to main content
QUICK REVIEW

[論文レビュー] A joint model of unpaired data from scRNA-seq and spatial transcriptomics for imputing missing gene expression measurements

Romain Lopez, Achille Nazaret|arXiv (Cornell University)|May 6, 2019
Single-cell and spatial transcriptomics参考文献 14被引用数 59
ひとこと要約

要約: 本論文は gimVI を紹介します。これは unpaired scRNA-seq と spatial transcriptomics データを共同に統合して欠損遺伝子発現を推定する深層生成モデルで、ドメイン適応に触発された潜在空間合わせを用いた変分フレームワークを使用します。

ABSTRACT

Spatial studies of transcriptome provide biologists with gene expression maps of heterogeneous and complex tissues. However, most experimental protocols for spatial transcriptomics suffer from the need to select beforehand a small fraction of genes to be quantified over the entire transcriptome. Standard single-cell RNA sequencing (scRNA-seq) is more prevalent, easier to implement and can in principle capture any gene but cannot recover the spatial location of the cells. In this manuscript, we focus on the problem of imputation of missing genes in spatial transcriptomic data based on (unpaired) standard scRNA-seq data from the same biological tissue. Building upon domain adaptation work, we propose gimVI, a deep generative model for the integration of spatial transcriptomic data and scRNA-seq data that can be used to impute missing genes. After describing our generative model and an inference procedure for it, we compare gimVI to alternative methods from computational biology or domain adaptation on real datasets and outperform Seurat Anchors, Liger and CORAL to impute held-out genes.

研究の動機と目的

  • unpaired scRNA-seq と spatial transcriptomics の統合を動機づけ、空間アッセイにおける欠損遺伝子発現を推定する。
  • 共有潜在構造を活用してモダリティ間の情報移転を行う確率的生成モデルを開発する。
  • 推定遺伝子発現の事後分布を提供することで不確実性を考慮した補完を可能にする。
  • 変分推論とニューラルネットワークに基づくスケーラブルな推論フレームワークを提供する。
  • 実データペアで gimVI を最先端手法と比較し、統合品質と推定精度を評価する。

提案手法

  • gimVI を提案します。共有潜在 z を用いる変分オートエンコーダベースのモデルで、細胞とモダリティ固有の成分を持ちます。
  • 共有の生物学的情報を z ~ N(0,I) で表し、モダリティ指標 s と z から遺伝子頻度確率 ρ を出力するニューラルネット fη を用います。
  • scRNA-seq の場合、カウント xng を ell(対数正規深さの代理)-ρng-分散 θg および遺伝子ごとの平均-分散調整のためのニューラルネット fν でパラメータ化された ZINB(または NB)分布としてモデリングします。
  • 空間データについては、ρ を空間遺伝子サブセット G′ に正規化し、x′n,g′ を Poisson(osmFISH)または NB(starMAP)で ell′、z、s、θ′ を条件としてモデリングし、プロトコル固有のばらつきを反映させます。
  • qφ(z,ℓ|x,s) および qψ(z|x′,s) を、モーダリティ間で共有されるエンコーダー成分を持つガウス変分分布として推定します。
  • 再構成項と KL 正則化を組み合わせたモダリティ固有の変分下界を最適化します(Eq. (13) および Eq. (14))。
  • 欠損遺伝子 g ∈ G\G′ の補完を、x′,s=1 から pΘ(z|x′,s=1) をサンプリングして z を得て、fη を用いて x*g(z) を計算することで行い、ドメイン適応理論に基づく dH-分散による敵対的損失で近似される評価指標を用いて評価します。

実験結果

リサーチクエスチョン

  • RQ1unpaired scRNA-seq と spatial transcriptomics のデータを共有潜在空間に統合することで、空間アッセイの欠損遺伝子推定を正確に行えるか?
  • RQ2確率的で深い生成アプローチ(gimVI)は、潜在空間の統合と遺伝子推定の両方で既存の統合手法(Liger, Seurat)より優れているか?
  • RQ3統合と推定のトレードオフを制御する調整可能な κ パラメータは、推定性能と潜在空間の整合性にどのように影響するか?
  • RQ4gimVI は推定遺伝子発現に対する不確実性推定を提供できるか、またそれらの不確実性はどれくらい信頼できるか?
  • RQ5gimVI は異なる空間モダリティ(osmFISH, starMAP)や組織コンテキストに対してどれほどロバストか?

主な発見

アルゴリズムmSMS ρ~mSMS δρ~mPFC ρ~mPFC δρ~
Seurat0.15-57%0.08-55%
Liger0.22-28%0.09-55%
scVI0.20-36%0.06-65%
CORAL0.18-38%0.17-15%
gimVI κ=10.30-12%0.22-3%
gimVI κ=00.33_0.22_
gimVI κ=κ*0.37+23%0.22+3%
  • gimVI は 2 つのデータセットを結合した潜在空間での統合性が良好で、混合のエントロピーが高く、ベースラインと比較して近接最近傍(k-NN)の純度が競合的または優れている。
  • 保持-out 遺伝子の推定において、κ を調整可能な範囲で gimVI は CORAL、Seurat、Liger、scVI と比較して中央値 Spearman 相関を大幅に改善する。
  • principled κ 設定(κ* が (0,1) の範囲)は κ=0 や κ=1 よりも多くのケースで優れており、データ依存の統合と正確な推定のトレードオフを強調する。
  • gimVI は推定値に対して後方サンプリングによる不確実性推定を提供し、予測の信頼度を評価可能で、予測が難しい遺伝子ほど不確実性が高いことを示す。
  • 定性的には、 gimVI を用いた推定発現は、Lamp5 マーカー等の既知の空間モチーフとより良く整合する空間的一貫性を示す。競合法より優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。