QUICK REVIEW

[論文レビュー] An investigation into machine learning approaches for forecasting spatio-temporal demand in ride-hailing service

Ismaïl Saadi, Melvin Wong|arXiv (Cornell University)|Mar 7, 2017

Transportation and Mobility Innovations参考文献 13被引用数 29

ひとこと要約

本研究では、2016年1月の実際のDiDi Chuxingデータを用いて、乗車配車サービスにおける短期的な空間時間的需要予測のための機械学習モデル—勾配ブースティング、ランダムフォレスト、ニューラルネットワーク、アンサンブル意思決定木—を提案および評価する。勾配ブースティングツリーは、過学習を最小限に抑える一方で、最高の精度（RMSE = 16.41）を達成し、都市移動システムにおける供給と需要のバランスを図る強力な予測能力を示した。

ABSTRACT

In this paper, we present machine learning approaches for characterizing and forecasting the short-term demand for on-demand ride-hailing services. We propose the spatio-temporal estimation of the demand that is a function of variable effects related to traffic, pricing and weather conditions. With respect to the methodology, a single decision tree, bootstrap-aggregated (bagged) decision trees, random forest, boosted decision trees, and artificial neural network for regression have been adapted and systematically compared using various statistics, e.g. R-square, Root Mean Square Error (RMSE), and slope. To better assess the quality of the models, they have been tested on a real case study using the data of DiDi Chuxing, the main on-demand ride hailing service provider in China. In the current study, 199,584 time-slots describing the spatio-temporal ride-hailing demand has been extracted with an aggregated-time interval of 10 mins. All the methods are trained and validated on the basis of two independent samples from this dataset. The results revealed that boosted decision trees provide the best prediction accuracy (RMSE=16.41), while avoiding the risk of over-fitting, followed by artificial neural network (20.09), random forest (23.50), bagged decision trees (24.29) and single decision tree (33.55).

研究の動機と目的

オンデマンド配車サービスにおける短期的な空間時間的需要予測のための機械学習モデルの開発および比較を行う。
時間的・地理的地域ごとの需要変動を予測する上で、最も正確かつ効率的なモデルを特定する。
交通状況、料金、天候などの外部要因が、配車需要のパターンに与える影響を評価する。
高次元で複雑かつ左に歪んだ需要データを扱えるスケーラブルで非パrametricなモデリングフレームワークを提供する。
ピーク時および非ピーク時の供給需要のアンバランスを事前に管理できるように、配車プラットフォームを支援する。

提案手法

本研究では、2016年1月のDiDi Chuxingのサービスから得られた199,584個の10分間隔のタイムスロットを、地域レベルに集計したデータセットを用いる。
RreliefFを用いた特徴選択により、交通状況、料金、天候状況などの最も関連性の高い予測変数を同定する。
5つの回帰ベースの機械学習モデルを評価する：単一の意思決定木、バギングされた意思決定木、ランダムフォレスト、勾配ブースティング意思決定木（GBDT）、および人工ニューラルネットワーク（ANN）。
モデルのパフォーマンスは、決定係数（R-squared）、平均二乗誤差（RMSE）、予測値と実測値の傾きといった標準的な回帰指標を用いて評価する。
モデルは、妥当性と一般化能力を確保するため、2つの独立したデータサンプルを用いて訓練および検証する。
計算効率と過学習のリスクを評価し、GBDTとANNが良好な実行時間と一般化のトレードオフを示した。

実験結果

リサーチクエスチョン

RQ1どの機械学習モデルが短期的な空間時間的配車需要予測において最高の予測精度を達成するか？
RQ2交通状況、料金、天候といった外部要因は、異なる地域および時間帯において需要パターンにどのように影響を与えるか？
RQ3アンサンブルベースのモデルは、単一モデルおよびニューラルネットワークと比較して、精度および計算効率の面でどのように異なるか？
RQ4非パrametricモデルは、現実の配車需要データの高次元性および左に歪んだ性質を効果的に処理できるか？
RQ5SVMベースのモデルは、類似した予測タスクで使用されているにもかかわらず、なぜ除外されたのか？

主な発見

勾配ブースティング意思決定木（GBDT）は、RMSEが16.41に達する最高の予測精度を達成し、他のすべてのモデルを上回った。
人工ニューラルネットワーク（ANN）は、RMSEが20.09に留まり、中程度の性能を示し、強力ではあるが最適ではない予測能力を示した。
ランダムフォレスト（RMSE = 23.50）およびバギングされた意思決定木（RMSE = 24.29）は、低い精度を示し、複雑な需要パターンにおける一般化能力の低下を示した。
単一の意思決定木は最悪の性能を示した（RMSE = 33.55）、これは高い過学習と、このデータセットにおける一般化能力の欠如を示している。
サポートベクターマシン（SVM）は、計算コストが高く、データサイズに比例して実行時間が指数関数的に増加するため、放棄された。
RreliefF特徴選択手法は、関連する予測変数を効果的に同定し、モデルのパフォーマンスと解釈可能性を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。