[논문 리뷰] Forecasting of the Montreal Subway Smart Card Entry Logs with Event Data
이 연구는 스마트 카드 데이터, 캘린더 정보 및 계획된 이벤트 데이터를 활용하여 몬트리올 지하철 승객 수요를 최대 1년 전까지 15분 간격으로 장기 예측할 수 있는 일반적인 데이터 형상화 프레임워크를 제안한다. 랜덤 포레스트 모델이 가장 뛰어난 성능을 보였으며, 이는 이벤트 데이터가 특히 이벤트 기간 동안 흔히 사용되는 임시 승차권의 예측 정확도를 크게 향상시킨다는 것을 보여준다.
One of the major goals of transport operators is to adapt the transport supply scheduling to the passenger demand for existing transport networks during each specific period. Another problem mentioned by operators is accurately estimating the demand for disposable ticket or pass to adapt ticket availability to passenger demand. In this context, we propose generic data shaping, allowing the use of well-known regression models (basic, statistical and machine learning models) for the long-term forecasting of passenger demand with fine-grained temporal resolution. Specifically, this paper investigates the forecasting until one year ahead of the number of passengers entering each station of a transport network with a quarter-hour aggregation by taking planned events into account (e.g., concerts, shows, and so forth). To compare the models and the quality of the prediction, we use a real smart card and event data set from the city of Montr\'eal, Canada, that span a three-year period with two years for training and one year for testing.
연구 동기 및 목표
- 도시 대중교통 네트워크에서 시간 해상도가 높은(15분 간격) 장기 수요 예측을 가능하게 하기 위해.
- 기본 회귀 모델과 함께 사용 가능한 스마트 카드, 캘린더 및 이벤트 데이터를 통합하는 일반적인 데이터 형상화 방법을 개발하기 위해.
- 특히 이벤트 기간 동안 수요를 예측함으로써 교통 수요 계획 및 티켓 가용성 향상에 기여하기 위해.
- 이벤트 데이터가 예측 정확도에 미치는 영향, 특히 임시 및 일회성 승차권에 대해 평가하기 위해.
- 유사한 데이터 가용성이 있는 다른 도시에 적용 가능한 재현 가능한 방법론을 제공하기 위해.
제안 방법
- 데이터 형상화 과정은 캘린더 및 이벤트 데이터를 모델 입력에 적합한 수치형 특성(예: 요일, 이벤트 존재 여부, 이벤트 유형 등)으로 변환한다.
- 세부적인 수요 패턴과 이벤트 영향을 포착하기 위해 15분 간격의 시간 집계를 사용한다.
- 기본(선형), 통계적(SARIMAX), 기계학습(랜덤 포레스트, XGBoost, LightGBM) 모델을 비교한다.
- 학습 세트는 2년 간의 데이터를 포함하고, 테스트 세트는 장기 예측 성능 평가를 위해 실제 1년 간의 데이터를 포함한다.
- 승객 수량의 연도 간 변화를 반영하기 위해 추세 조정 방법을 적용한다.
- 전역 및 티켓 유형별 예측에 대해 MAE, RMSE, R² 지표를 사용하여 모델 성능을 평가한다.
실험 결과
연구 질문
- RQ1사전에 이용 가능한 캘린더 및 이벤트 데이터만을 사용하여 승객 수요를 최대 1년 전까지 정확하게 예측할 수 있는가?
- RQ2이벤트 데이터의 포함 여부가 특히 이벤트 기간 동안의 예측 정확도에 어떤 영향을 미치는가?
- RQ3기본, 통계적, 기계학습 모델 중에서 장기적이고 세밀한 지하철 수요 예측에 가장 우수한 성능을 보이는 모델은 무엇인가?
- RQ4이벤트 기간 동안 티켓 유형(예: 임시 승차권)에 따라 수요가 어떻게 변하는가? 이는 예측에 반영될 수 있는가?
- RQ5추세 조정 방법이 장기 예측 성능 향상에 어느 정도 기여하는가?
주요 결과
- 랜덤 포레스트 모델이 전역 수요 예측에서 가장 낮은 MAE와 RMSE를 기록하여 통계적 및 기본 모델을 모두 압도했다.
- 이벤트 데이터의 포함으로 인해 정확도가 크게 향상되었으며, 특히 이벤트 기간 동안의 예측 정확도 향상에 뚜렷한 영향을 미쳤다. 가장 두드러진 영향은 임시 승차권 사용에 관찰되었다.
- 루시앙-라올리에르 역에서 정점 이벤트 시간대(예: 오후 10시 15분)에 임시 승차권을 사용하는 승객 수가 최대 1,000명 증가했다.
- 역별로 예측 성능에 차이가 있었으며, 특히 이벤트 장소 근처에 위치한 일부 역은 이벤트 데이터가 포함되었을 때 더 예측 가능성이 높았다.
- 추세 조정 방법은 연도 간 승객 수량 증가를 효과적으로 반영하여 장기 예측의 안정성을 향상시켰다.
- 제안된 데이터 형상화 프레임워크는 일반적이고 재현 가능하여 유사한 데이터 가용성이 있는 다른 대중교통 네트워크에 적용 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.