QUICK REVIEW

[논문 리뷰] Polygenic Modeling with Bayesian Sparse Linear Mixed Models

Xiang Zhou, Peter Carbonetto|arXiv (Cornell University)|2012. 09. 06.

Genetic and phenotypic traits in livestock인용 수 30

한 줄 요약

이 논문은 선형 혼합 모델(LMMs)과 희소 회귀를 통합하는 베이지안 희소 선형 혼합 모델(BSLMM)을 소개한다. 이 모델은 다유전자 유전 구조를 적응적으로 모델링할 수 있도록 하여, 표현형 예측의 정확도를 크게 향상시키고 다양한 유전 구조에서 칩 유전력의 안정적인 추정을 가능하게 한다. 데이터 기반 초모수 추정과 새로운 MCMC 알고리즘을 통해 두 접근법의 장점을 결합함으로써, BSLMM은 다유전자 모델링에서 뛰어난 성능을 발휘한다.

ABSTRACT

Both linear mixed models (LMMs) and sparse regression models are widely used in genetics applications, including, recently, polygenic modeling in genome-wide association studies. These two approaches make very different assumptions, so are expected to perform well in different situations. However, in practice, for a given data set one typically does not know which assumptions will be more accurate. Motivated by this, we consider a hybrid of the two, which we refer to as a "Bayesian sparse linear mixed model" (BSLMM) that includes both these models as special cases. We address several key computational and statistical issues that arise when applying BSLMM, including appropriate prior specification for the hyper-parameters, and a novel Markov chain Monte Carlo algorithm for posterior inference. We apply BSLMM and compare it with other methods for two polygenic modeling applications: estimating the proportion of variance in phenotypes explained (PVE) by available genotypes, and phenotype (or breeding value) prediction. For PVE estimation, we demonstrate that BSLMM combines the advantages of both standard LMMs and sparse regression modeling. For phenotype prediction it considerably outperforms either of the other two methods, as well as several other large-scale regression methods previously suggested for this problem. Software implementing our method is freely available from http://stephenslab.uchicago.edu/software.html

연구 동기 및 목표

진정한 유전 구조가 알려져 있지 않을 때 LMM과 희소 회귀 모델 간의 선택 과제를 해결하기 위해.
다유전자 구조에 적합한 LMM의 장점과 소수의 유전자 변이에 적합한 희소 회귀의 장점을 결합한 통합 모델을 개발하기 위해.
초모수에 적절한 사전 분포를 유도하고 데이터로부터 이를 추정하여 신뢰할 수 있는 추론을 보장하기 위해.
수천 명의 개체와 수십만 개의 SNP를 포함한 대규모 데이터셋에 적합하게 스케일링되며, 부호 없는 근사치를 사용하지 않는 효율적인 MCMC 알고리즘을 설계하기 위해.
PVE(표현형에 의해 설명되는 분산 비율) 추정과 표현형 예측이라는 두 가지 핵심 응용 분야에서 BSLMM의 성능을 평가하기 위해.

제안 방법

LMM와 베이지안 변수 선택 회귀(BVSR)를 특수 케이스로 포함하는 베이지안 희소 선형 혼합 모델(BSLMM)을 제안한다.
SNP 효과 크기에 대한 혼합 사전 분포를 사용한 계층적 사전 구조를 도입하여, 작은 다유전자 효과와 소수의 큰 효과를 모두 허용한다.
LMM에서 고차원 가우시안 적분을 효율적으로 계산하기 위해 최근에 개발된 선형 대수 기법을 활용한 새로운 MCMC 알고리즘을 구현한다.
비정보성 또는 약한 정보성 사전 분포를 사용하여 초모수(예: 분산 성분, 희소성 파라미터)를 데이터로부터 추정함으로써 적응성을 확보한다.
모의 데이터와 실제 데이터셋(WTCCC, 이질적 품종 마우스)을 모두 활용하여 비교 평가를 수행한다.
RMSE, 상관계수, AUC, Brier 점수와 같은 예측 성능 지표를 사용하여 LMM, BVSR 및 기타 대규모 회귀 방법과의 성능을 비교한다.

실험 결과

연구 질문

RQ1LMM과 희소 회귀를 통합한 통합 모델이, 유전형이 표현형의 분산을 설명하는 비율을 추정할 때 개별 모델보다 뛰어난 성능을 보일 수 있는가?
RQ2BSLMM 프레임워크는 데이터로부터 실제 유전 구조(예: 유전자 변이의 수와 크기)를 적응적으로 학습할 수 있는가?
RQ3다양한 유전 구조에서 BSLMM은 LMM, BVSR 및 기타 대규모 회귀 방법과 비교해 표현형 예측 성능에서 뛰어난가?
RQ4제안된 MCMC 알고리즘은 수천 명의 개체와 수십만 개의 SNP를 포함한 대규모 유전 데이터를 효율적으로 처리할 수 있는가?
RQ5고정된 초모수 값 대비 데이터 기반의 초모수 추정이 더 강인하고 정확한 추론을 이끌어내는가?

주요 결과

모의 시나리오에서 중간/작은 효과를 가진 SNP가 있는 경우, BSLMM는 표현형 예측에서 LMM와 BVSR를 크게 능가하며, 평균 상대 예측 향상률(RPG)이 1.24에 이른다.
WTCCC 데이터셋에서 BSLMM는 7개 질병에 대해 AUC 값 0.60~0.88를 기록했으며, 제1형 당뇨병의 경우 최고 AUC 0.88를 기록하여 LMM과 BVSR를 모두 초월했다.
이질적 품종 마우스 데이터셋에서 BSLMM는 6개 데이터 분할에 걸쳐 평균 RMSE 0.70~0.99를 기록했으며, LMM와 BVSR보다 항상 뛰어난 성능을 보였다.
PVE 추정에서, 진짜 유전 구조가 순수하게 다유전자적이거나 순수하게 희소가 아닌 경우, BSLMM는 LMM나 BVSR보다 더 정확하고 안정적인 추정을 제공했다.
제1형 당뇨병 예측에서 BSLMM는 Brier 점수 0.139 ± 0.006을 기록하여 다른 모델보다 유의미하게 낮게, 이는 이진 형질 예측에서 뛰어난 성능을 의미한다.
새로운 MCMC 알고리즘 덕분에 대규모 데이터에서 신뢰할 수 있는 추론이 가능해졌으며, 이전 유사 모델의 구현에서 흔히 발생하던 부호 없는 근사치를 피할 수 있었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.