QUICK REVIEW

[논문 리뷰] Distributional Fitting and Tail Analysis of Lead-Time Compositions: Nights vs. Revenue on Airbnb

Harrison Katz, Jess Needleman|arXiv (Cornell University)|2026. 01. 17.

Sharing Economy and Platforms인용 수 0

한 줄 요약

본 논문은 에어비앤비의 Nights Booked와 Gross Booking Value(GBV)의 매일 리드타임 구성을 구성 벡터로 분석하고, 중간 범위의 리드타임이 GBV를 지배하며, Gamma/Weibull 분포가 잘 맞고, 꼬리 추정은 절단에 민감하다는 것을 발견한다.

ABSTRACT

We analyze daily lead-time distributions for two Airbnb demand metrics, Nights Booked (volume) and Gross Booking Value (revenue), treating each day's allocation across 0-365 days as a compositional vector. The data span 2,557 days from January 2019 through December 2025 in a large North American region. Three findings emerge. First, GBV concentrates more heavily in mid-range horizons: beyond 90 days, GBV tail mass typically exceeds Nights by 20-50%, with ratios reaching 75% at the 180-day threshold during peak seasons. Second, Gamma and Weibull distributions fit comparably well under interval-censored cross-entropy. Gamma wins on 61% of days for Nights and 52% for GBV, with Weibull close behind at 38% and 45%. Lognormal rarely wins (<3%). Nonparametric GAMs achieve 18-80x lower CRPS but sacrifice interpretability. Third, generalized Pareto fits suggest bounded tails for both metrics at thresholds below 150 days, though this may partly reflect right-truncation at 365 days; above 150 days, estimates destabilize. Bai-Perron tests with HAC standard errors identify five structural breaks in the Wasserstein distance series, with early breaks coinciding with COVID-19 disruptions. The results show that volume and revenue lead-time shapes diverge systematically, that simple two-parameter distributions capture daily pmfs adequately, and that tail inference requires care near truncation boundaries.

연구 동기 및 목표

볼륨(Nights)와 수익(GBV) 리드타임 분포가 에어비앤비에서 서로 다르게 나타나는지 조사한다.
구간 차단하의 일일 리드타임 pmf에 가장 잘 맞는 파라메트릭 분포군을 식별한다.
리드타임 분포의 꼬리 거동 및 시간에 따른 구조적 변화를 평가한다.
리드타임 분포를 피팅하기 위한 비모수적 및 모수적 접근법을 비교하고 예측-관련 채점에 대해 비교한다.
제한 조건 아래의 매출 예측 및 꼬리 추정에 대한 시사점을 조사한다.

제안 방법

각 날의 리드타임 할당을 365-단충합의 구성 벡터로 다룬다.
일일 Nights vs. GBV pmf를 비교하기 위해 Wasserstein-1 거리를 사용한다.
교차 엔트로피를 통해 간격 차단된 pmf에 Gamma, Weibull, Lognormal 분포를 적합시킨다.
임계값 안정성 진단(POT 접근법)을 포함한 일반화된 Pareto 꼬리 분석을 적용한다.
Wasserstein 거리 시계열에 HAC-robust Bai–Perron 구조적 변화 테스트를 적용한다.
CRPS와 KLD를 스코어 규칙으로 사용하는 비모수 GAM 적합과 비교한다.

Figure 1: Aggregated lead-time distributions for Nights (blue) and GBV (red), 2019–2025. Distributions are day-weighted averages of daily pmfs: $\bar{p}(\ell)=D^{-1}\sum_{d}x_{d,\ell}$ . Both peak near $\ell=0$ and decline rapidly. The curves cross around $\ell=30$ days: below, Nights slightly excee

실험 결과

연구 질문

RQ1볼륨 기반과 매출 기반 리드타임 분포가 일별로 체계적으로 차이가 있는가?
RQ2간격 차단 하에서 일일 리드타임 pmf를 가장 잘 설명하는 파라메트릭 계열은 Gamma, Weibull, Lognormal 중 무엇인가?
RQ3Nights와 GBV 간 꼬리 거동은 어떻게 다르며, 절단으로 인한 차단 임계값에서 꼬리가 안정적인가?
RQ4샘플 기간 동안 Nights와 GBV 간의 리드타임 형태의 발산에 구조적 변화가 있는가?
RQ5설명적 용도 대비 예측 지향 용도에서 파라메트릭 vs 비모수(GAM) 적합의 상대적 성능은 어떠한가?

주요 결과

90일을 초과하는 구간에서 GBV가 Nights보다 중간 범위의 시야에 더 집중되며, 피크 계절 동안 180일에 최대 비율이 75%에 달한다.
Gamma와 Weibull이 비교적 비슷한 적합도를 제공하며; Nights의 교차 엔트로피 기준으로 약 55–60%의 일수에서 Gamma가, GBV의 약 52%에서 Gamma가 우세하다.
Lognormal은 거의 승리하지 못하며; GAM은 CRPS를 훨씬 낮추지만 해석 가능성에서 양가적trade-off가 있다.
꼬리 추정은 절단으로 인해 약 150일 정도에서만 안정적이며 그 이상은 추론이 불안정해진다.
Wasserstein 거리에 다섯 차례의 구조적 변화가 COVID 관련 움직임과 이후의 거시적 변화로 해석될 수 있다.
두 매개 Gamma/Weibull이 기술적 리드타임 pmf를 설명하는 데 충분하며; GAM은 표본 내 CRPS를 더 낮추지만 덜 간결하다.

Figure 2: Daily Wasserstein-1 distance between Nights and GBV, with structural breakpoints (dashed vertical lines) identified via Bai–Perron with HAC standard errors. The series averages 8.67 (95% CI: 8.42–8.92). Seasonality peaks in summer. Early breaks (2020–2021) align with COVID disruptions; lat

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.