[논문 리뷰] Spatially-aware station based car-sharing demand prediction
이 연구는 공간적 인지 능력과 해석 가능성을 갖춘 기계학습 모델—특히 지리좌표를 사용한 랜덤 포레스트와 지리적 가중 회귀(GWR)—를 제안하여 정류장 수준에서 장기적 평균 월간 차량 공유 수요를 예측한다. R제곱 값이 0.87에 도달하여, POI 밀도 및 사회경제적 요인과 같은 공간적 특성이 수요에 상당한 영향을 미친다는 것을 보여주며, MGWR는 예측자 효과의 다중 척도 공간 이질성을 드러낸다.
In recent years, car-sharing services have emerged as viable alternatives to private individual mobility, promising more sustainable and resource-efficient, but still comfortable transportation. Research on short-term prediction and optimization methods has improved operations and fleet control of car-sharing services; however, long-term projections and spatial analysis are sparse in the literature. We propose to analyze the average monthly demand in a station-based car-sharing service with spatially-aware learning algorithms that offer high predictive performance as well as interpretability. Our study utilizes a rich set of socio-demographic, location-based (e.g., POIs), and car-sharing-specific features as input, extracted from a large proprietary car-sharing dataset and publicly available datasets. We first compare the performance of different modeling approaches and find that a global Random Forest with geo-coordinates as part of input features achieves the highest predictive performance with an R-squared score of 0.87 on test data. While a local linear model, Geographically Weighted Regression, performs almost on par in terms of out-of-sample prediction accuracy. We further leverage the models to identify spatial and socio-demographic drivers of car-sharing demand. An analysis of the Random Forest via SHAP values, as well as the coefficients of GWR and MGWR models, reveals that besides population density and the car-sharing supply, other spatial features such as surrounding POIs play a major role. In addition, MGWR yields exciting insights into the multiscale heterogeneous spatial distributions of factors influencing car-sharing behaviour. Together, our study offers insights for selecting effective and interpretable methods for diagnosing and planning the placement of car-sharing stations.
연구 동기 및 목표
- 정거장 기반 차량 공유 시스템을 위한 장기적이고 공간적으로 명시적인 수요 예측 모델의 부족을 해결한다.
- 공간적 및 사회경제적 특성을 통합하여 새로운 차량 공유 정류장 계획을 위한 예측 정확도 향상과 설명 가능성 향상을 도모한다.
- GWR 및 MGWR와 같은 국지적 회귀 모델을 활용해 수요 주요 요인의 공간 이질성을 조사한다.
- 장기적 수요 예측에서 전역 비선형 모델(예: 랜덤 포레스트)과 국지 선형 모델(예: GWR)의 성능 및 해석 가능성 비교.
- 해석 가능하고 공간적으로 명시적인 차량 공유 수요 모델링을 통해 지속 가능한 도시 이동성 계획을 위한 실질적 통찰 제공.
제안 방법
- 스위스 국립 차량 공유 제공업체의 대규모 데이터셋을 활용하여 1,641개 정류장과 시간에 따른 월간 수요를 포함한다.
- 다양한 입력 특성 통합: 사회경제적 요소(예: 인구 밀도, 소득), 위치 기반 데이터(예: POI 밀도, 대중교통 접근성), 차량 공유 공급 지표.
- 지리좌표를 입력 특성으로 사용하여 비선형적으로 공간 패턴을 포착하는 전역 모델링을 위해 랜덤 포레스트를 활용.
- 예측자와 수요 간의 공간적으로 변화하는 관계를 모델링하기 위해 지리적 가중 회귀(GWR) 및 다중 척도 GWR(MGWR) 적용.
- 랜덤 포레스트 모델이 학습한 특성 중요도와 비선형 관계를 해석하기 위해 SHAP 값 사용.
- 남은 테스트 세트를 사용한 모델 검증; 성능 평가로 R제곱 및 샘플 외 예측 정확도 보고.
실험 결과
연구 질문
- RQ1장기적 평균 월간 차량 공유 수요에 대해 전역 모델과 국지 모델 중 어느 모델이 가장 높은 예측 정확도를 제공하는가?
- RQ2사회경제적 요소와 공간적 특성(예: POI 밀도, 대중교통 접근성)은 다양한 지역에서 차량 공유 수요에 어떻게 영향을 미치는가?
- RQ3예측자 효과가 공간적으로 얼마나 다양하게 변하는가? 국지 모델인 MGWR은 다중 척도 공간 이질성을 드러낼 수 있는가?
- RQ4SHAP 값과 GWR/MGWR의 회귀 계수 간의 비교에서 핵심 수요 주요 요인과 그 공간적 패턴을 어떻게 식별할 수 있는가?
- RQ5설명 가능한 모델은 새로운 차량 공유 정류장 배치를 위한 근거 기반 계획 수립을 지원할 수 있는가?
주요 결과
- 지리좌표를 입력 특성으로 사용한 전역 랜덤 포레스트 모델이 테스트 세트에서 가장 높은 예측 성능을 달성하여 R제곱 점수 0.87를 기록했다.
- 지리적 가중 회귀(GWR)는 샘플 외 예측에서 랜덤 포레스트와 거의 유사한 성능을 보여, 강력한 국지 모델링 능력을 입증했다.
- SHAP 값 분석을 통해 수요가 북부 스위스에서 뚜렷이 증가하는 경향을 확인하여, 모델이 지역적 공간 패턴을 잘 포착하고 있음을 확인했다.
- 인구 밀도와 공급 외에도 주변 POI와 대중교통 접근성이 주요 공간적 수요 주요 요인으로 나타났다.
- MGWR는 다중 척도 공간 이질성을 드러내었으며, 다양한 예측자가 지역에 따라 다른 공간 척도에서 수요에 영향을 미친다는 것을 보여주었다.
- 전역 비선형 모델(RF)과 국지 선형 모델(GWR/MGWR)은 상호 보완적인 강점을 지녔다: 전자는 정확도에서 뛰어나고, 후자는 예측자 효과의 공간적 해석 가능성에서 뛰어나다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.