Skip to main content
QUICK REVIEW

[논문 리뷰] Lognormal and Gamma Mixed Negative Binomial Regression

Mingyuan Zhou, Lingbo Li|arXiv (Cornell University)|2012. 06. 27.
Advanced Statistical Methods and Models참고 문헌 26인용 수 75
한 줄 요약

이 논문은 분산 및 확률 파라미터에 대해 로그노멀 및 감마 혼합을 사용하는 새로운 베이지안 음이항 회귀 모델을 제안한다. 이를 통해 폴리아-포아송 변수와 복합 포아송 표현을 활용한 데이터 증강을 통한 효율적인 폐쇄형 게이브스 샘플링 및 변분 추론이 가능해진다. 이 방법은 계수에 대한 희박성 유도 사전 분포를 포함한 유연한 사전 모델링을 지원하며, 과분산된 카운트 데이터에 대해 확장 가능하고 일반화 가능한 추론을 제공한다.

ABSTRACT

In regression analysis of counts, a lack of simple and efficient algorithms for posterior computation has made Bayesian approaches appear unattractive and thus underdeveloped. We propose a lognormal and gamma mixed negative binomial (NB) regression model for counts, and present efficient closed-form Bayesian inference; unlike conventional Poisson models, the proposed approach has two free parameters to include two different kinds of random effects, and allows the incorporation of prior information, such as sparsity in the regression coefficients. By placing a gamma distribution prior on the NB dispersion parameter r, and connecting a lognormal distribution prior with the logit of the NB probability parameter p, efficient Gibbs sampling and variational Bayes inference are both developed. The closed-form updates are obtained by exploiting conditional conjugacy via both a compound Poisson representation and a Polya-Gamma distribution based data augmentation approach. The proposed Bayesian inference can be implemented routinely, while being easily generalizable to more complex settings involving multivariate dependence structures. The algorithms are illustrated using real examples.

연구 동기 및 목표

  • 카운트 데이터 모델링에서 음이항 회귀에 대한 효율적인 베이지안 추론 알고리즘이 부족한 문제를 해결하기 위해.
  • 로그노멀 및 감마 혼합을 통한 두 개의 독립적인 랜덤 효과를 도입하여 과분산된 카운트 데이터의 모델링을 더 잘 수용하기 위해.
  • 일반화 가능한 추론을 위한 루틴 적용과 복잡한 의존 구조로의 일반화를 가능하게 하는 폐쇄형 사후 계산 방법을 개발하기 위해.
  • 회귀 계수에 대한 희박성 유도 사전 분포와 같은 정보성 사전 분포를 일관된 베이지안 프레임워크 내에서 통합하기 위해.
  • 공액 지수족 성질을 활용한 게이브스 샘플링 및 변분 베이즈를 통한 확장 가능한 추론을 제공하기 위해.

제안 방법

  • 분산 파라미터 r에 대해 감마 사전을 사용하여 공액 업데이트를 가능하게 한다.
  • 확률 파라미터 p의 로짓 변환된 값에 대해 로그노멀 사전을 적용하여 비중앙화 파rameterization을 유연하게 허용한다.
  • 조건부 공액 사후 업데이트를 달성하기 위해 폴리아-포아송 데이터 증강 기법을 적용한다.
  • 폐쇄형 조건부 사후 분포를 도출하기 위해 복합 포아송 표현을 활용한다.
  • 동일한 증강 구조를 사용하여 변분 베이즈 업데이트를 유도함으로써 확장 가능한 근사 추론을 가능하게 한다.
  • 두 증강 전략을 결합하여 조건부 공액성을 활용하고 계산 효율성을 보장한다.

실험 결과

연구 질문

  • RQ1과분산된 카운트 데이터를 더 잘 캐릭터라이즈하기 위해 두 개의 독립적인 랜덤 효과를 갖는 베이지안 음이항 모델을 구성할 수 있는가?
  • RQ2공액 사전과 데이터 증강을 사용하여 이러한 모델에서 효율적인 폐쇄형 사후 계산을 달성할 수 있는가?
  • RQ3희박성 유도 사전 분포와 같은 정보성 사전 분포를 접근 가능한 추론 프레임워크 내에서 지원할 수 있는가?
  • RQ4기존의 포아송 모델 또는 표준 음이항 모델과 비교하여 제안된 방법의 성능 및 확장성은 어떠한가?
  • RQ5이 추론 프레임워크는 다변량 및 계층적 의존 구조의 카운트 데이터로 일반화될 수 있는가?

주요 결과

  • 폴리아-포아송 및 복합 포아송 데이터 증강을 통해 제안된 모델은 폐쇄형 사후 업데이트를 달성하여 효율적인 게이브스 샘플링이 가능하다.
  • 변분 베이즈 추론 역시 폐쇄형으로 도출되어 확장 가능한 근사 베이지안 추론을 지원한다.
  • 로그노멀 및 감마 혼합 구조 덕분에 모델은 계수에 대한 희박성 유도 사전 분포를 포함한 다양한 사전 분포 사양을 지원한다.
  • 유연한 모듈러 구조 덕분에 복잡한 다변량 및 계층적 의존 구조로의 일반화가 가능하다.
  • 실제 데이터셋에 대한 실험 결과는 과분산된 카운트 데이터를 더 높은 해석 가능성과 추론 효율성으로 효과적으로 다룰 수 있음을 보여준다.
  • 이 방법은 이전의 계산 확장성 및 알고리즘 복잡성의 제약을 극복하고 카운트 데이터의 루틴 베이지안 분석을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.