Skip to main content
QUICK REVIEW

[논문 리뷰] A latent factor model with a mixture of sparse and dense factors to model gene expression data with confounding effects

Chuan Gao, Christopher D. Brown|arXiv (Cornell University)|2013. 10. 17.
Gene expression and cancer classification참고 문헌 46인용 수 24
한 줄 요약

이 논문은 인과적 요인들의 이원 조합 사전분포를 사용하여 유전자 발현 데이터에서 희박한 유전자 클러스터와 농축된 혼란 요인을 동시에 식별하는 베이지안 잠재요인 모델을 제안한다. 요인 하중에 대한 다수준 수축을 위해 삼매개수 베타 사전분포를 적용하고, 희박성/농축성의 적응적 모델링을 통해 생물학적으로 관련된 유전자 모듈과 알려진 공변량을 성공적으로 복원하였다. eQTL 연관성 분석을 통한 검증을 통해 성능을 입증하였다.

ABSTRACT

One important problem in genome science is to determine sets of co-regulated genes based on measurements of gene expression levels across samples, where the quantification of expression levels includes substantial technical and biological noise. To address this problem, we developed a Bayesian sparse latent factor model that uses a three parameter beta prior to flexibly model shrinkage in the loading matrix. By applying three layers of shrinkage to the loading matrix (global, factor-specific, and element-wise), this model has non-parametric properties in that it estimates the appropriate number of factors from the data. We added a two-component mixture to model each factor loading as being generated from either a sparse or a dense mixture component; this allows dense factors that capture confounding noise, and sparse factors that capture local gene interactions. We developed two statistics to quantify the stability of the recovered matrices for both sparse and dense matrices. We tested our model on simulated data and found that we successfully recovered the true latent structure as compared to related models. We applied our model to a large gene expression study and found that we recovered known covariates and small groups of co-regulated genes. We validated these gene subsets by testing for associations between genotype data and these latent factors, and we found a substantial number of biologically important genetic regulators for the recovered gene subsets.

연구 동기 및 목표

  • 대규모 유전자 발현 데이터에서 배치 효과 및 인구 구조와 같은 혼란 효과를 다루기 위해.
  • 요인 수에 대한 사전 지식 없이도 희박한 유전자 클러스터(공조-regulated 유전자)와 농축된 혼란 요인을 동시에 모델링하기 위해.
  • 적절한 요인 수를 추정하고 희박성 및 농축성 하중 패턴을 구분할 수 있는 융통성 있고 비모수적 베이지안 모델을 개발하기 위해.
  • 소음을 통제하면서 국소적 유전자 공조-regulation 신호를 유지함으로써 다유전자 eQTL의 탐지 성능을 향상시키기 위해.
  • 희박성 및 농축성 구성요소에 대한 새로운 안정성 지표를 사용하여 유전자 발현 행렬의 안정적이고 해석 가능한 분해를 제공하기 위해.

제안 방법

  • 하중 행렬에 대한 전역적, 요인별, 요소별 수축을 유도하기 위해 삼매개수 베타(TPB) 사전분포를 사용한다.
  • 각 요인 하중에 대해 이원 조합 모델을 적용하여, 하나의 성분은 희박성을 유도하고 다른 성분은 그렇지 않게 하여, 자동으로 희박한 유전자 클러스터와 농축된 혼란 요인을 구분할 수 있도록 한다.
  • 변분 기대최대화(VEM)를 통한 효율적 사후 추론을 위해 공액 사전분포를 사용하는 계층적 베이지안 프레임워크를 구현한다.
  • 매개수 a, b, c, d, e, f 및 τk를 통해 다수준 수축을 구현하여 하중과 요인 분산을 적응적으로 정규화한다.
  • 일반화된 역가우시안 및 기타 공액 분포의 최빈값을 사용하여 Λkj, θkj, φk, δkj, τk 및 π를 포함한 모든 매개수에 대해 닫힌 형태의 MAP 추정치를 유도한다.
  • 회복된 희박성 및 농축성 요인 행렬의 신뢰성을 평가하기 위해 두 가지 안정성 통계량을 도입한다.

실험 결과

연구 질문

  • RQ1희박한 유전자 클러스터와 농축된 혼란 요인을 동시에 식별할 수 있는 베이지안 잠재요인 모델은 고차원 유전자 발현 데이터에서 성공적으로 작동하는가?
  • RQ2제안된 하중에 대한 혼합 사전분포는 생물학적으로 의미 있는 공조-regulated 유전자 집단과 기술적 잡음 간에 효과적으로 구분하는가?
  • RQ3혼란 효과가 존재하는 상황에서 기존 방법들과 비교해 실제 잠재 구조를 얼마나 잘 복원하는가?
  • RQ4유전적 연관성(eQTL) 분석을 통해 회복된 잠재 요인은 어느 정도 검증될 수 있는가?
  • RQ5비모수적 수축 성질을 활용하여 사전 지정 없이도 관련 요인 수를 추정할 수 있는가?

주요 결과

  • 모델은 시뮬레이션 데이터에서 진짜 잠재 구조를 성공적으로 복원하였으며, 희박성 및 농축성 요인을 식별하는 데 기존 모델보다 뛰어난 성능을 보였다.
  • 실제 유전자 발현 데이터에서 나이, 성별, 배치 효과와 같은 알려진 생물학적 공변량을 회복하여 혼란 요인 모델링 능력을 확인하였다.
  • 모델은 알려진 기능 경로와 조절 네트워크에 enrich된 작고 생물학적으로 일관된 유전자 클러스터를 식별하였다.
  • 유전형 데이터와 회복된 잠재 요인 간에 다수의 eQTL 연관성이 확인되어 그 생물학적 관련성을 검증하였다.
  • 안정성 지표는 여러 실행 및 데이터 하위집합에서 일관된 희박성 및 농축성 구성요소를 식별하는 데 있어 강건성을 입증하였다.
  • 희박 신호를 유지하면서도 농축된 혼란 요인을 모델링하는 데서, 생물학적으로 관련된 구조를 제거할 위험이 있는 두 단계 PCA 기반 정규화 방법보다 성능이 뛰어났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.