[논문 리뷰] Distributional Fitting and Tail Analysis of Lead-Time Compositions: Nights vs. Revenue on Airbnb
본 논문은 에어비앤비의 Nights Booked와 Gross Booking Value(GBV)의 매일 리드타임 구성을 구성 벡터로 분석하고, 중간 범위의 리드타임이 GBV를 지배하며, Gamma/Weibull 분포가 잘 맞고, 꼬리 추정은 절단에 민감하다는 것을 발견한다.
We analyze daily lead-time distributions for two Airbnb demand metrics, Nights Booked (volume) and Gross Booking Value (revenue), treating each day's allocation across 0-365 days as a compositional vector. The data span 2,557 days from January 2019 through December 2025 in a large North American region. Three findings emerge. First, GBV concentrates more heavily in mid-range horizons: beyond 90 days, GBV tail mass typically exceeds Nights by 20-50%, with ratios reaching 75% at the 180-day threshold during peak seasons. Second, Gamma and Weibull distributions fit comparably well under interval-censored cross-entropy. Gamma wins on 61% of days for Nights and 52% for GBV, with Weibull close behind at 38% and 45%. Lognormal rarely wins (<3%). Nonparametric GAMs achieve 18-80x lower CRPS but sacrifice interpretability. Third, generalized Pareto fits suggest bounded tails for both metrics at thresholds below 150 days, though this may partly reflect right-truncation at 365 days; above 150 days, estimates destabilize. Bai-Perron tests with HAC standard errors identify five structural breaks in the Wasserstein distance series, with early breaks coinciding with COVID-19 disruptions. The results show that volume and revenue lead-time shapes diverge systematically, that simple two-parameter distributions capture daily pmfs adequately, and that tail inference requires care near truncation boundaries.
연구 동기 및 목표
- 볼륨(Nights)와 수익(GBV) 리드타임 분포가 에어비앤비에서 서로 다르게 나타나는지 조사한다.
- 구간 차단하의 일일 리드타임 pmf에 가장 잘 맞는 파라메트릭 분포군을 식별한다.
- 리드타임 분포의 꼬리 거동 및 시간에 따른 구조적 변화를 평가한다.
- 리드타임 분포를 피팅하기 위한 비모수적 및 모수적 접근법을 비교하고 예측-관련 채점에 대해 비교한다.
- 제한 조건 아래의 매출 예측 및 꼬리 추정에 대한 시사점을 조사한다.
제안 방법
- 각 날의 리드타임 할당을 365-단충합의 구성 벡터로 다룬다.
- 일일 Nights vs. GBV pmf를 비교하기 위해 Wasserstein-1 거리를 사용한다.
- 교차 엔트로피를 통해 간격 차단된 pmf에 Gamma, Weibull, Lognormal 분포를 적합시킨다.
- 임계값 안정성 진단(POT 접근법)을 포함한 일반화된 Pareto 꼬리 분석을 적용한다.
- Wasserstein 거리 시계열에 HAC-robust Bai–Perron 구조적 변화 테스트를 적용한다.
- CRPS와 KLD를 스코어 규칙으로 사용하는 비모수 GAM 적합과 비교한다.

실험 결과
연구 질문
- RQ1볼륨 기반과 매출 기반 리드타임 분포가 일별로 체계적으로 차이가 있는가?
- RQ2간격 차단 하에서 일일 리드타임 pmf를 가장 잘 설명하는 파라메트릭 계열은 Gamma, Weibull, Lognormal 중 무엇인가?
- RQ3Nights와 GBV 간 꼬리 거동은 어떻게 다르며, 절단으로 인한 차단 임계값에서 꼬리가 안정적인가?
- RQ4샘플 기간 동안 Nights와 GBV 간의 리드타임 형태의 발산에 구조적 변화가 있는가?
- RQ5설명적 용도 대비 예측 지향 용도에서 파라메트릭 vs 비모수(GAM) 적합의 상대적 성능은 어떠한가?
주요 결과
- 90일을 초과하는 구간에서 GBV가 Nights보다 중간 범위의 시야에 더 집중되며, 피크 계절 동안 180일에 최대 비율이 75%에 달한다.
- Gamma와 Weibull이 비교적 비슷한 적합도를 제공하며; Nights의 교차 엔트로피 기준으로 약 55–60%의 일수에서 Gamma가, GBV의 약 52%에서 Gamma가 우세하다.
- Lognormal은 거의 승리하지 못하며; GAM은 CRPS를 훨씬 낮추지만 해석 가능성에서 양가적trade-off가 있다.
- 꼬리 추정은 절단으로 인해 약 150일 정도에서만 안정적이며 그 이상은 추론이 불안정해진다.
- Wasserstein 거리에 다섯 차례의 구조적 변화가 COVID 관련 움직임과 이후의 거시적 변화로 해석될 수 있다.
- 두 매개 Gamma/Weibull이 기술적 리드타임 pmf를 설명하는 데 충분하며; GAM은 표본 내 CRPS를 더 낮추지만 덜 간결하다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.