QUICK REVIEW

[논문 리뷰] Continuous shrinkage prior revisited: a collapsing behavior and remedy

Se Yoon Lee, Debdeep Pati|arXiv (Cornell University)|2020. 07. 04.

Gaussian Processes and Bayesian Inference참고 문헌 23인용 수 2

한 줄 요약

이 논문은 진짜 신호가 다수 존재할 경우 글로벌 스케일을 과소평가함으로써 사후 평균이 0으로 수렴하는 연속적인 수축 사전의 붕괴 행동을 규명한다. 이를 해결하기 위해 꼬리 지수를 적응적으로 학습하는 글로벌-로컬-꼬리 수축 사전을 제안하여, 중간 정도의 신호 수를 가진 고차원 게놈 분석 환경에서 추정 정확도를 향상시킨다.

ABSTRACT

Modern genomic studies are increasingly focused on identifying more and more genes clinically associated with a health response. Commonly used Bayesian shrinkage priors are designed primarily to detect only a handful of signals when the dimension of the predictors is very high. In this article, we investigate the performance of a popular continuous shrinkage prior in the presence of relatively large number of true signals. We draw attention to an undesirable phenomenon; the posterior mean is rendered very close to a null vector, caused by a sharp underestimation of the global-scale parameter. The phenomenon is triggered by the absence of a tail-index controlling mechanism in the Bayesian shrinkage priors. We provide a remedy by developing a global-local-tail shrinkage prior which can automatically learn the tail-index and can provide accurate inference even in the presence of moderately large number of signals. The collapsing behavior of the Horseshoe with its remedy is exemplified in numerical examples and in two gene expression datasets.

연구 동기 및 목표

기존의 흩어진 신호 탐지에 특화된 설계를 가진 연속 수축 사전이 중간 정도로 많은 진짜 신호가 존재할 경우 성능을 어떻게 보이는지 조사하기 위해.
기존 사전에서 사후 평균이 0으로 수렴하는 근본 원인을 특정하기 위해, 특히 글로벌 스케일 파ameter의 급격한 과소평가를 중심으로.
기본적인 베이지안 수축 사전에서 꼬리 지수 제어 메커니즘이 부족하여, 밀도 높은 신호 상황에서 추론이 떨어지는 문제를 해결하기 위해.
꼬리 지수를 자동으로 학습하고, 많은 신호가 존재할 경우에도 정확한 사후 추론을 유지할 수 있는 새로운 사전을 개발하기 위해.
수치 예제와 실제 유전자 발현 데이터셋을 통해 제안된 해결책의 유효성을 검증하기 위해.

제안 방법

기존 글로벌-로컬 사전을 확장하여, 무거운 尾행동을 제어할 수 있는 유연한 꼬리 지수 파ameter를 도입한 글로벌-로컬-꼬리 수축 사전을 제안하기 위해.
꼬리 지수를 데이터로부터 추정할 수 있도록 계층적 사전 구조를 도입하여, 진짜 신호 집합의 흩어진 정도에 자동으로 적응할 수 있도록 하기 위해.
스케일 혼합 표현을 사용하여 사전를 계층 모형으로 표현하고, 게임스 샘플링 또는 유사한 MCMC 방법을 통해 효율적인 사후 계산을 가능하게 하기 위해.
꼬리 지수에 비정보성 또는 약한 정보성 사전을 도입하여, 강한 가정 없이 데이터 기반 학습을 가능하게 하기 위해.
말뚝 사전의 수축 성질을 유지하면서도 글로벌 스케일 추정치를 안정화시켜 사후 붕괴를 방지할 수 있도록 사전를 설계하기 위해.
베이지안 프레임워크 내에서 모델을 구현하고, 다양한 신호 흩어진 정도 수준에서 사후 평균 성능을 평가하기 위해.

실험 결과

연구 질문

RQ1왜 기존의 연속 수축 사전은 고차원 환경에서 중간 정도로 많은 진짜 신호를 탐지하지 못하는가?
RQ2기존 글로벌-로컬 사전에서 사후 평균이 0으로 수렴하는 데 기여하는 메커니즘은 무엇인가?
RQ3꼬리 지수 제어 메커니즘이 없는 것이 글로벌 스케일 파ameter의 과소평가에 어떻게 기여하는가?
RQ4꼬리 지수를 적응적으로 학습할 수 있도록 설계된 사전을 통해 조밀한 신호 영역에서 정확한 수축을 유지할 수 있는가?
RQ5제안된 글로벌-로컬-꼬리 사전은 실제 게놈 데이터에서 기존 사전과 비교해 사후 평균 정확도와 신호 탐지 능력에서 어떻게 다른가?

주요 결과

기존의 연속 수축 사전에서 진짜 신호 수가 증가함에 따라 글로벌 스케일 파ameter의 심각한 과소평가로 인해 사후 평균이 0으로 수렴하는 붕괴 행동이 발생한다.
이러한 붕괴 행동은 기존 사전에서 꼬리 지수 제어 메커니즘이 부재함으로써 비롯되며, 이는 비-null 효과의 과다 수축을 초래한다.
제안된 글로벌-로컬-꼬리 수축 사전는 데이터로부터 꼬리 지수를 적응적으로 학습함으로써 사후 붕괴를 성공적으로 완화한다.
수치 예제에서는 새로운 사전이 다양한 신호 흩어진 정도 수준에서 정확한 사후 평균 추정치를 유지함을 보여준다.
두 개의 실제 유전자 발현 데이터셋에서 제안된 방법은 표준 말뚝 사전 및 관련 사전보다 진짜 신호 탐지 및 효과 크기 추정에서 뛰어난 성능을 보였다.
중간 정도의 신호 밀도에 대해 강건성을 보이며, 점점 증가하는 임상적으로 유의미한 유전자 수를 가진 현대 게놈 연구에 실용적인 해결책을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.