QUICK REVIEW

[논문 리뷰] An investigation into machine learning approaches for forecasting spatio-temporal demand in ride-hailing service

Ismaïl Saadi, Melvin Wong|arXiv (Cornell University)|2017. 03. 07.

Transportation and Mobility Innovations참고 문헌 13인용 수 29

한 줄 요약

이 연구는 2016년 1월의 실제 DiDi Chuxing 데이터를 사용하여 라이드셰링 서비스의 단기 시공간 수요 예측을 위한 기계학습 모델—특히 그래디언트 부스팅, 랜덤 포레스트, 신경망, 앙상블 决定 트리—을 제안하고 평가한다. 그래디언트 부스팅 트리는 과적합을 최소화하면서도 가장 높은 정확도(RMSE = 16.41)를 달성하여 도시 이동성 시스템에서 수요와 공급의 균형을 이루는 데 강력한 예측 능력을 보여준다.

ABSTRACT

In this paper, we present machine learning approaches for characterizing and forecasting the short-term demand for on-demand ride-hailing services. We propose the spatio-temporal estimation of the demand that is a function of variable effects related to traffic, pricing and weather conditions. With respect to the methodology, a single decision tree, bootstrap-aggregated (bagged) decision trees, random forest, boosted decision trees, and artificial neural network for regression have been adapted and systematically compared using various statistics, e.g. R-square, Root Mean Square Error (RMSE), and slope. To better assess the quality of the models, they have been tested on a real case study using the data of DiDi Chuxing, the main on-demand ride hailing service provider in China. In the current study, 199,584 time-slots describing the spatio-temporal ride-hailing demand has been extracted with an aggregated-time interval of 10 mins. All the methods are trained and validated on the basis of two independent samples from this dataset. The results revealed that boosted decision trees provide the best prediction accuracy (RMSE=16.41), while avoiding the risk of over-fitting, followed by artificial neural network (20.09), random forest (23.50), bagged decision trees (24.29) and single decision tree (33.55).

연구 동기 및 목표

수요 기반 라이드셰링 서비스에서 단기 시공간 수요 예측을 위한 기계학습 모델을 개발하고 비교하는 것.
시간과 지리적 지역 간 수요 변동을 예측하는 데 가장 정확하고 효율적인 모델을 특정하는 것.
외부 변수—예를 들어 교통, 가격, 날씨—가 라이드셰링 수요 패턴에 미치는 영향을 평가하는 것.
고차원적이고 복잡하며 왼쪽으로 비틀린 수요 데이터를 다룰 수 있는 확장 가능한 비모수적 모델링 프레임워크를 제공하는 것.
정점 및 비정점 시간대에 수요-공급 불균형을 사전에 관리할 수 있도록 라이드셰링 플랫폼을 지원하는 것.

제안 방법

연구는 2016년 1월 DiDi Chuxing 서비스에서 수집한 199,584개의 10분 단위 시간 간격 데이터를 사용하며, 이는 지역 수준으로 집계되었다.
예측 변수의 선별은 RreliefF를 사용하여 수행되어 교통, 가격, 날씨 조건 등 가장 관련성이 높은 변수들을 식별하였다.
다섯 가지 회귀 기반 기계학습 모델이 평가되었다: 단일 결정 트리, 백킹된 결정 트리, 랜덤 포레스트, 그래디언트 부스팅된 결정 트리(GBDT), 인공 신경망(ANN).
모델 성능 평가에는 R제곱, 평균제곱근오차(RMSE), 예측값 대비 실측값의 기울기 등 표준 회귀 지표가 사용되었다.
모델은 정확성과 일반화 능력을 확보하기 위해 두 개의 독립된 데이터 샘플을 사용하여 훈련 및 검증되었다.
계산 효율성과 과적합 위험을 평가하였으며, GBDT와 ANN은 우수한 런타임 및 일반화 성능의 균형을 보였다.

실험 결과

연구 질문

RQ1어느 기계학습 모델이 단기 시공간 라이드셰링 수요 예측에서 가장 높은 예측 정확도를 제공하는가?
RQ2교통, 가격, 날씨와 같은 외부 요인이 다양한 지역과 시간 간격에서 수요 패턴에 어떻게 영향을 미치는가?
RQ3앙상블 기반 모델은 단일 모델과 신경망에 비해 정확도와 계산 효율성 측면에서 어떻게 비교되는가?
RQ4비모수적 모델은 실제 라이드셰링 수요 데이터의 고차원성과 왼쪽으로 비틀린 성격을 효과적으로 다룰 수 있는가?
RQ5유사한 예측 작업에서 사용된 바 있는 SVM 기반 모델은 왜 배제되었는가?

주요 결과

그래디언트 부스팅된 결정 트리(GBDT)는 RMSE 16.41을 기록하여 모든 다른 모델보다 높은 예측 정확도를 달성하였다.
인공 신경망(ANN)은 RMSE 20.09를 기록하여 강력하지만 최적은 아닌 예측 능력을 보였다.
랜덤 포레스트(RMSE = 23.50)와 백킹된 결정 트리(RMSE = 24.29)는 낮은 정확도를 보이며 복잡한 수요 패턴에 대한 일반화 능력이 떨어지는 것으로 나타났다.
단일 결정 트리는 가장 열악한 성능을 보였으며(RMSE = 33.55), 과적합이 심하고 데이터셋에 대한 일반화 능력이 열악하였다.
서포트 벡터 머신(SVM)은 데이터셋 크기에 따라 계산 비용이 급격히 증가하고 런타임이 지수적으로 증가하는 문제로 인해 기각되었다.
RreliefF 특성 선택 방법은 관련 예측 변수를 효과적으로 식별하여 모델 성능과 해석 가능성을 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.