Skip to main content
QUICK REVIEW

[논문 리뷰] Semi-parametric inference for the means of heavy-tailed distributions

Matt Taddy, Hedibert F. Lopes|arXiv (Cornell University)|2016. 02. 25.
Bayesian Methods and Mixture Models참고 문헌 25인용 수 2
한 줄 요약

이 논문은 중량 꼬리 분포의 평균에 대한 추론을 위해 데이터의 주요 부분에 비모수적 추정을, 꼬리 부분에 극단가치이론 기반의 모수적 모델링을 조합하는 반모수적 베이지안 프레임워크를 제안한다. 사후 표본 추출을 위한 효율적인 독립 메트로폴리스-해스팅스 알고리즘을 도입하고, 수천만 명의 사용자를 포함한 이베이 데이터를 활용한 A/B 테스트 및 사용자 지출 예측에서 향상된 추정 성능을 입증한다.

ABSTRACT

Heavy tailed distributions present a tough setting for inference. They are also common in industrial applications, particularly with Internet transaction datasets, and machine learners often analyze such data without considering the biases and risks associated with the misuse of standard tools. This article outlines a procedure for inference about the (possibly conditional) mean of a heavy tailed distribution that combines nonparametric inference for the bulk of the support with parametric inference – motivated from extreme value theory – for the heavy tail. We are able to derive analytic posterior conditional means and variances for the expected value of a heavy tailed distributivo. We also introduce a simple and novel independence Metropolis Hastings algorithm that samples from the distribution for tail parameters via small adjustments to a parametric bootstrap, and through this algorithm are able to provide comparisons between our framework and frequentist semiparametric inference. We also provide a modeling extension that shrinks tails across distributions to an overall background tail. We illustrate on two examples: treatment effect estimation on a set of 72 A/B experiments, and the fitting of regression trees for prediction of user spending. Both use data from tens of millions of users of eBay.com.

연구 동기 및 목표

  • 인터넷 거래 로그와 같은 산업 응용 분야에서 흔히 나타나는 중량 꼬리 분포에 표준 도구를 적용할 경우 발생하는 편향된 추론 문제를 해결한다.
  • 주요 부분과 극단치를 모두 고려하는 중량 꼬리 분포의 평균을 추정하는 강건한 방법을 개발한다.
  • 비모수적 및 모수적 구성 요소를 통합한 일관된 베이지안 프레임워크를 통해 기대값에 대한 신뢰할 수 있는 사후 추론을 가능하게 한다.
  • 모수적 부트스트랩에 대한 미세 조정을 통해 꼬리 파라미터에 대한 표본 추출 효율성을 향상시킨 새로운 MCMC 알고리즘을 도입한다.
  • 다양한 분포 간에 꼬리 파라미터를 공통 배경 꼬리 구조로 수축시킬 수 있도록 모델을 확장한다.

제안 방법

  • 실제 분포함수 또는 커널 밀도 추정을 사용하여 분포의 주요 부분을 비모수적으로 모델링한다.
  • 극단가치이론에서 유도된 일반화된 페레토 분포(GPD)를 사용하여 꼬리를 모수적으로 모델링한다.
  • 비모수적 주요 부분 추정치와 모수적 꼬리 추정치를 조합하여 평균에 대한 공동 사후분포를 구성한다.
  • 통합 모델 하에서 기대값의 사후 조건부 평균과 분산에 대한 해석적 표현을 유도한다.
  • 모수적 부트스트랩에 기반한 꼬리 파라미터를 제안하고, 전체 사후 밀도를 사용하여 수용 비율을 계산하는 독립 메트로폴리스-해스팅스 알고리즘을 구현한다.
  • 다양한 분포 간에 꼬리 정보를 융합하여 추정을 안정화시키는 계층적 수축 성분을 도입한다.

실험 결과

연구 질문

  • RQ1비모수적 모델링과 극단가치이론 기반 모델링을 조합하여 중량 꼬리 분포의 평균 추정을 어떻게 향상시킬 수 있는가?
  • RQ2모수적 부트스트랩 조정을 기반으로 한 새로운 MCMC 알고리즘이 베이지안 프레임워크에서 꼬리 파라미터에 대해 효율적이고 정확한 표본 추출을 제공할 수 있는가?
  • RQ3제안된 반모수적 방법은 신뢰구간의 커버리지와 정밀도 측면에서 빈도주의 반모수적 추론과 비교해 어떻게 성능을 발휘하는가?
  • RQ4여러 분포 간 꼬리 파라미터의 수축이 추정의 안정성과 정확도를 얼마나 향상시키는가?
  • RQ5이 프레임워크는 수천만 건의 관측치를 포함한 실제 산업 데이터셋, 예를 들어 A/B 테스트 및 사용자 지출 예측에 효과적으로 적용될 수 있는가?

주요 결과

  • 제안된 반모수적 베이지안 프레임워크는 중량 꼬리 분포의 기대값에 대한 사후 조건부 평균과 분산을 해석적으로 계산할 수 있다.
  • 독립 메트로폴리스-해스팅스 알고리즘은 최소한의 튜닝으로 꼬리 파라미터에 대한 효율적인 표본 추출을 달성하여 수렴성과 유효 표본 크기 측면에서 기존 MCMC보다 뛰어나다.
  • 다양한 분포 간 수축을 적용한 모델은 꼬리 파라미터 추정의 분산을 감소시키고, 사용자 지출 회귀 과제에서의 외부 예측 정확도를 향상시킨다.
  • 72개의 이베이 실험에 대한 A/B 테스트에서, 데이터가 매우 왜율이 높을 경우 기존의 t-검정보다 더 신뢰할 수 있는 치료 효과 추정치를 제공하였다.
  • 수천만 명의 사용자를 포함한 데이터셋에서 이 프레임워크는 확장성과 실제 산업 환경에서의 실용성을 입증하며 강건한 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.