Skip to main content
QUICK REVIEW

[논문 리뷰] Robust model selection in generalized linear models

Samuel Müller, A. H. Welsh|ArXiv.org|2007. 11. 15.
Advanced Statistical Methods and Models참고 문헌 19인용 수 24
한 줄 요약

이 논문은 선형 모형에서의 강건 부트스트랩 모형 선택을 일반선형모형(GLMs)으로 확장하며, 절편과 중심화된 예측변수의 필요성을 제거하는 편향 조정된 m-out-of-n 부트스트랩 추정량을 도입한다. 이 방법은 오염된 환경에서도 모형 선택의 일致성과 성능을 향상시켜, 시뮬레이션과 실제 데이터에서 AIC, BIC 및 비강건 추정량보다 뛰어나며, 특히 Cantoni-Ronchetti 추정량과 같은 강건 추정량을 사용할 경우 두각을 나타낸다.

ABSTRACT

In this paper, we extend to generalized linear models (including logistic and other binary regression models, Poisson regression and gamma regression models) the robust model selection methodology developed by Mueller and Welsh (2005; JASA) for linear regression models. As in Mueller and Welsh (2005), we combine a robust penalized measure of fit to the sample with a robust measure of out of sample predictive ability which is estimated using a post-stratified m-out-of-n bootstrap. A key idea is that the method can be used to compare different estimators (robust and nonrobust) as well as different models. Even when specialized back to linear regression models, the methodology presented in this paper improves on that of Mueller and Welsh (2005). In particular, we use a new bias-adjusted bootstrap estimator which avoids the need to centre the explanatory variables and to include an intercept in every model. We also use more sophisticated arguments than Mueller and Welsh (2005) to establish an essential monotonicity condition.

연구 동기 및 목표

  • 선형 모형에서의 강건 모형 선택을 일반선형모형(GLMs), 즉 로지스틱 회귀, 포isson 회귀, 감마 회귀로 확장한다.
  • 강건한 적합도와 예측 성능를 통합한 모형 선택 기준을 개발하여, 다양한 모형과 추정량 간의 비교를 가능하게 한다.
  • 모형 선택에서 절편과 예측변수 중심화의 필요성을 제거하여 방법론적 유연성을 높인다.
  • 일반화된 역행렬과 추적 분해를 사용하여 GLMs에서 강건 추정량에 대한 기준의 점근적 일치성을 확립한다.
  • 시뮬레이션과 실제 데이터 예제(수목 서식지에 서식하는 유대류 다양성)를 통해 표본 수가 유한한 경우의 성능을 입증한다.

제안 방법

  • 관측 데이터에 대한 적합도를 측정하기 위해 강건한 페널티 손실 함수를 사용하며, 이는 편향 조정된 m-out-of-n 부트스트랩 추정량을 통합한다.
  • 안정성과 강건성을 향상시키기 위해, 외부 예측 오차를 추정하기 위해 후행층화된 m-out-of-n 부트스트랩을 활용한다.
  • 중심화 및 절편 제약 조건을 피하기 위해 편향 조정 부트스트랩 추정량인 $\widehat{\beta}^{c*}_{\alpha,m} - \mathbb{E}_*(\widehat{\beta}^{c*}_{\alpha,m} - \widehat{\beta}^{c}_{\alpha})$를 적용한다.
  • 일반화된 역행렬을 사용해 강건 추정량의 점근적 분산을 분해하여, 추적 기반의 일치성 증명을 단순화한다.
  • 강건한 적합도와 예측 손실을 통합하여 모형 선택 기준 $M_n(\alpha)$를 구성하고, 이 기준을 모형 부분집합 $\alpha$에 대해 최적화한다.
  • Cantoni-Ronchetti(2001)의 강건 추정량을 주요 예시로 사용하며, 다른 강건 추정량에도 적용 가능한 확장성을 확보한다.

실험 결과

연구 질문

  • RQ1강건 부트스트랩 모형 선택을 선형 모형에서 일반선형모형(GLMs)으로 일반화할 수 있는가?
  • RQ2강건 모형 선택에서 절편과 예측변수 중심화의 필요성을 제거하면서도 일致성을 유지할 수 있는가?
  • RQ3제안된 편향 조정 부트스트랩 추정량은 기존 부트스트랩 방법에 비해 표본 수가 유한한 경우 성능을 향상시키는가?
  • RQ4GLMs에서 강건 추정량의 광범위한 클래스에 대해 모형 선택 기준의 일치성을 확립할 수 있는가?
  • RQ5오염 또는 이방성 값이 존재하는 상황에서 제안된 방법은 AIC, BIC 및 비강건 추정량과 비교해 어떻게 성능을 발휘하는가?

주요 결과

  • Cantoni-Ronchetti 추정량을 사용한 강건 모형 선택 기준은 오염 상황에서 참 모형을 선택할 확률가 71%에 이를 뿐만 아니라, 최대우도 추정량은 0%에 그친다.
  • 모형에 포함된 비영계수 항이 3개뿐일 경우에도 높은 선택 정확도를 유지하며, 시뮬레이션 연구에서 AIC와 BIC를 능가한다.
  • 편향 조정 부트스트랩 추정량 덕분에 예측변수 중심화나 모든 모형에 절편을 포함할 필요가 없어져 방법론적 적용 범위가 넓어졌다.
  • 일반화된 역행렬과 추적 분해를 사용해 이론적 일치성을 입증하였으며, Müller과 Welsh(2005)의 접근보다 더 일반적인 증명 프레임워크를 제공한다.
  • 실제 데이터 예제인 포식자 다양성 연구에서, 이 방법은 수컷과 서식지가 주요 예측변수로 선택되었으며, 후진 선택 및 강건성 고려와 일치한다.
  • 그림 1의 해법 경로는 최소 $M_n(\alpha)$가 두 개의 예측변수에서 달성됨을 보여주며, 모형 안정성과 선택 효율성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.