QUICK REVIEW

[논문 리뷰] Statistical Methods for cis-Mendelian Randomization with Two-sample Summary-level Data

Apostolos Gkatzionis, Stephen Burgess|arXiv (Cornell University)|2021. 01. 11.

Genetic Associations and Epidemiology인용 수 9

한 줄 요약

이 논문은 단일 유전자 영역에서 유사한 유전자 변이를 가진 두표본 요약자료를 사용한 cis-메넨델리안 랜덤라이제이션을 위한 통계적 방법을 제안하고 평가한다. 약물 타겟 검증 연구에서 더 신뢰할 수 있는 인과 추론을 위해 약한 유전자 도구 조건에서 요인 분석과 베이지안 변수 선택이 단순 정제보다 우수함을 보여준다.

ABSTRACT

Mendelian randomization is the use of genetic variants to assess the existence of a causal relationship between a risk factor and an outcome of interest. Here, we focus on two-sample summary-data Mendelian randomization analyses with many correlated variants from a single gene region, and particularly on cis-Mendelian randomization studies which use protein expression as a risk factor. Such studies must rely on a small, curated set of variants from the studied region; using all variants in the region requires inverting an ill-conditioned genetic correlation matrix and results in numerically unstable causal effect estimates. We review methods for variable selection and estimation in cis-Mendelian randomization with summary-level data, ranging from stepwise pruning and conditional analysis to principal components analysis, factor analysis and Bayesian variable selection. In a simulation study, we show that the various methods have a comparable performance in analyses with large sample sizes and strong genetic instruments. However, when weak instrument bias is suspected, factor analysis and Bayesian variable selection produce more reliable inferences than simple pruning approaches, which are often used in practice. We conclude by examining two case studies, assessing the effects of LDL-cholesterol and serum testosterone on coronary heart disease risk using variants in the HMGCR and SHBG gene regions respectively.

연구 동기 및 목표

단일 유전자 영역에서 상당히 상관관계가 있는 많은 유전자 변이를 사용할 때 발생하는 cis-메넨델리안 랜덤라이제이션의 과제를 해결하기 위해.
도구 변수의 강도와 상관관계 구조가 변화할 때 변수 선택 및 추정 방법의 성능을 비교하기 위해.
유전자 도구가 높이 상관관계가 있을 때 두표본 요약자료 MR에서 인과 효과 추정의 신뢰성을 평가하기 위해.
특히 약물 타겟 발견을 위한 적용 연구자들에게 cis-MR에서의 방법 선택에 실용적 지침을 제공하기 위해.

제안 방법

cis-MR에서 변이 선택을 위해 LD-정제, 조건부 분석, 주성분 분석(PCA), 요인 분석, 베이지안 스토케스-검색 변수 선택(JAM)을 사용한다.
인과 효과 추정을 위해 역분산가중치(IVW), 가중 중앙값, 모드 기반, 제한 정보 최대우도(LIML) 추정기를 적용한다.
도구 변수의 강도와 상관관계가 변화하는 조건에서 방법 성능을 비교하기 위해 HMGCR 및 SHBG 두 유전자 영역을 사용한 시뮬레이션 연구를 수행한다.
특히 약한 도구 변수 편향 하에서의 탄력성 평가를 위해 다수의 방법을 사용한 민감도 분석을 시행한다.
영국 생물정보자료와 CARDIoGRAMplusC4D의 실제 자료를 적용하여 콜레스테롤과 심장질환 간의 관계를 연구한다.
승자의 굴함과 선택 편향을 완화하기 위해 변수 선택과 도구 추정을 독립된 표본으로 분리하는 것을 제안한다.

실험 결과

연구 질문

RQ1약한 유전자 도구 조건에서 다양한 변수 선택 방법(예: 정제 대비 PCA 대비 요인 분석)이 cis-MR에서 어떻게 성능을 발휘하는가?
RQ2도구가 상관관계가 있고 약할 경우, IVW, LIML, JAM 등의 추정 방법 중 어느 것이 가장 신뢰할 수 있는 인과 효과 추정과 신뢰구간을 제공하는가?
RQ3요약자료 기반 cis-MR에서 변수 선택 방법의 선택이 인과 추론의 타당성에 어느 정도 영향을 미치는가?
RQ4약한 도구 조건에서 요인 분석과 베이지안 변수 선택이 표준 정제 방법보다 편향을 줄일 수 있는가?
RQ5실제 약물 타겟 검증 적용 사례에서 메소드 선택이 cis-MR 결과의 신뢰성에 어떤 영향을 미치는가?

주요 결과

약한 도구 변수 편향이 존재할 경우, 요인 분석과 베이지안 변수 선택(JAM)이 단순 정제보다 더 신뢰할 수 있는 추론을 제공했다.
강한 도구 변수 조건에서는 모든 방법(PCA 기반 IVW 포함)이 유사하게 성능을 보였지만, 약한 도구 조건에서는 PCA 기반 IVW가 더 큰 편향을 보였다.
F-LIML는 정확한 인과 효과 추정을 제공했지만, 약한 도구 조건에서는 신뢰구간 커버리지가 열악했다.
CLR 검정은 약한 도구 변수 편향에 가장 덜 영향을 받았고, 인과 null에 대해 유효한 추론을 제공했지만, 점추정치를 제공하지는 않았다.
JAM는 인과 효과 추정치에 편향이 있었지만, F-LIML보다 더 나은 불확실성 정량화를 보였으며, 이는 강건성과 정밀도 사이의 상충관계를 시사했다.
연구는 F-LIML, CLR, JAM를 포함한 다수의 방법을 민감도 분석으로 사용하여 cis-MR 적용에서의 신뢰성을 향상시키는 것이 바람직하다고 권고한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.