Skip to main content
QUICK REVIEW

[논문 리뷰] A Bayesian Multiple Testing Paradigm for Model Selection in Inverse Regression Problems

Debashis Chatterjee, Sourabh Bhattacharya|arXiv (Cornell University)|2020. 01. 01.
Statistical Methods in Clinical Trials참고 문헌 24인용 수 1
한 줄 요약

이 논문은 역회귀 문제에서 모형 및 변수 선택을 위한 새로운 베이지안 다중 검정 프레임워크를 제안하며, 혼합 모형 내에 역참조 분포를 통합하여 진짜 모형으로부터 쿨백-라이블러 발산을 최소화하는 모형을 渐近적으로 선택한다. 이 방법은 거짓 발견률과 거짓 비발견률이 거의 확실히 0으로 수렴함을 보장하며, 종속된 데이터와 잘못된 모형을 가진 비모수적 설정을 포함한 시뮬레이션 연구에서 의사-베이지안 요인보다 뛰어난 성능을 보인다.

ABSTRACT

In this article, we propose a novel Bayesian multiple testing formulation for model and variable selection in inverse setups, judiciously embedding the idea of inverse reference distributions proposed by Bhattacharya (2013) in a mixture framework consisting of the competing models. We develop the theory and methods in the general context encompassing parametric and nonparametric competing models, dependent data, as well as misspecifications. Our investigation shows that asymptotically the multiple testing procedure almost surely selects the best possible inverse model that minimizes the minimum Kullback-Leibler divergence from the true model. We also show that the error rates, namely, versions of the false discovery rate and the false non-discovery rate converge to zero almost surely as the sample size goes to infinity. Asymptotic α-control of versions of the false discovery rate and its impact on the convergence of false non-discovery rate versions, are also investigated. Our simulation experiments involve small sample based selection among inverse Poisson log regression and inverse geometric logit and probit regression, where the regressions are either linear or based on Gaussian processes. Additionally, variable selection is also considered. Our multiple testing results turn out to be very encouraging in the sense of selecting the best models in all the non-misspecified and misspecified cases.

연구 동기 및 목표

  • 관측된 반응과 공변량으로부터 관측되지 않은 공변량을 추론하는 역회귀 문제에서의 모형 선택을 위한 통계적 방법의 부족을 해결하기 위해.
  • 이론적으로 탄탄하고 계산적으로 실현 가능한 베이지안 다중 검정 프레임워크를 개발하여, 경쟁하는 모형들의 혼합 모형에 역참조 분포를 통합하기 위해.
  • 이 방법의 점점 일관성을 확립하여, 진짜 모형으로부터 쿨백-라이블러 발산을 최소화하는 최상의 모형이 거의 확실히 선택됨을 보여주기 위해.
  • 소표본 역포isson 로그 회귀, 역기하학적 로짓/프롭비트 회귀, 변수 선택에 대한 시뮬레이션 실험을 통해 기존의 의사-베이지안 요인 접근법보다 이 방법이 뛰어난 성능을 보임을 입증하기 위해.
  • 역회귀 설정에서 거짓 발견률(FDR)의 점점 제어와 그가 거짓 비발견률(FNR) 수렴에 미치는 영향을 조사하기 위해.

제안 방법

  • 이전에 비타치아리(2013)에 의해 제안된 역참조 분포를 경쟁하는 파라미터적 및 비모수적 모형을 포함하는 혼합 모형 프레임워크에 통합함으로써, 베이지안 다중 검정 체계를 수립한다.
  • 중요도 샘플링 MCMC를 사용하여 사후 분포를 근사하고, 모형 비교를 위한 이질성 척도(예: T1, T2)를 계산한다.
  • 이질성 척도의 사후 확률에 기반한 다중 검정 규칙을 정의하며, 관측된 이질성에 대해 높은 사후 확률을 가진 모형이 선택된다.
  • 안정적이고 계산적으로 효율적인 사후 추정치를 확보하기 위해 유한한 하나의 관측치를 제외한 교차검증을 적용한다.
  • 샤라이지(2009)의 이론적 도구를 활용하여, 종속된 데이터와 모형 오류가 있는 일반 조건 하에서도 사후 일관성을 보장한다.
  • 거짓 발견률(FDR)의 점점 제어를 확립하고, 표본 크기가 증가함에 따라 FDR과 거짓 비발견률(FNR)이 거의 확실히 0으로 수렴함을 보여준다.

실험 결과

연구 질문

  • RQ1역회귀 문제에서 점점 일관된 모형 선택을 보장할 수 있는 베이지안 다중 검정 프레임워크를 개발할 수 있는가?
  • RQ2소표본 역회귀 설정에서 제안된 방법이 의사-베이지안 요인에 비해 모형 및 변수 선택 정확도에서 어떻게 비교되는가?
  • RQ3제안된 다중 검정 절차 하에서 거짓 발견률(FDR)과 거짓 비발견률(FNR)의 점점 행동은 어떠한가?
  • RQ4모형 오류 및 종속된 데이터 구조 하에서도 이 방법이 강력한 이론적 보장을 유지하는가?
  • RQ5이 방법은 역회귀 문제에서 파라미터적 및 비모수적 모형을 통합된 프레임워크로 효과적으로 다룰 수 있는가?

주요 결과

  • 제안된 다중 검정 절차는 진짜 모형으로부터 쿨백-라이블러 발산을 최소화하는 모형을 거의 확실히 선택한다.
  • 표본 크기가 증가함에 따라 거짓 발견률(FDR)과 거짓 비발견률(FNR)이 거의 확실히 0으로 수렴하여 대규모 표본에서 높은 선택 정확도를 확보한다.
  • 역포isson 로그 회귀와 역기하학적 로짓/프롭비트 회귀에 대한 시뮬레이션 실험에서, 이 방법은 모든 경우에서 최상의 모형을 일관되게 선택하였으며 의사-베이지안 요인을 능가하였다.
  • 키로니omid 및 화분 고기후 데이터셋에 대해, 이 방법은 진짜 데이터 특성과 일치하는, 딜레르트 프로세스 반응 함수를 가진 0-과잉 다항-디리클레 모형을 최상의 모형으로 정확히 식별하였다.
  • 이질성 척도(T1, T2)에 대한 역참조 분포는 모든 경우에서 관측값을 95% 최고 사후 밀도 신뢰구간 내에 포함하였으며, 사후 확률이 0.95를 크게 초월하였다.
  • 이 방법은 모형 오류 및 종속성에 대해 강건성을 보였으며, 경쟁 모형이 복잡하거나 과도하게 파rameter화되어 있어도 강력한 성능을 유지하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.