Skip to main content
QUICK REVIEW

[논문 리뷰] Forecasting Crime with Deep Learning

Alexander Stec, Diego Klabjan|arXiv (Cornell University)|2018. 06. 05.
Crime Patterns and Interventions참고 문헌 7인용 수 39
한 줄 요약

이 논문은 시카고와 포틀랜드의 일일 범죄 건수를 세밀한 공간 수준에서 예측하기 위해 RNN과 CNN을 조합한 딥러닝 모델을 제안한다. 기상, 인구 조사, 대중교통 데이터 등 외부 데이터를 범죄 데이터와 결합하여 사용한다. 최고의 모델은 시카고에서 정확도 75.6%를 기록하고 포틀랜드에서는 65.3%를 기록하여, 범죄 데이터 외에 외부 데이터를 활용할 경우 예측 성능이 크게 향상됨을 보여준다.

ABSTRACT

The objective of this work is to take advantage of deep neural networks in order to make next day crime count predictions in a fine-grain city partition. We make predictions using Chicago and Portland crime data, which is augmented with additional datasets covering weather, census data, and public transportation. The crime counts are broken into 10 bins and our model predicts the most likely bin for a each spatial region at a daily level. We train this data using increasingly complex neural network structures, including variations that are suited to the spatial and temporal aspects of the crime prediction problem. With our best model we are able to predict the correct bin for overall crime count with 75.6% and 65.3% accuracy for Chicago and Portland, respectively. The results show the efficacy of neural networks for the prediction problem and the value of using external datasets in addition to standard crime data.

연구 동기 및 목표

  • 범죄 데이터의 공간적·시간적 패턴을 포착하는 딥 네트워크를 활용해 범죄 예측 정확도를 향상시키는 것.
  • 기상, 인구 조사, 대중교통 등의 외부 데이터셋이 범죄 예측 성능에 미치는 영향을 조사하는 것.
  • 범죄 빈도 수준(저빈도, 중간빈도, 고빈도)과 기상 조건에 따라 모델 성능을 평가하는 것.
  • 대중교통 패턴과 요일 유형(평일, 주말, 공휴일)이 예측 정확도에 미치는 영향을 평가하는 것.

제안 방법

  • 하이브리드 RNN-CNN 아키텍처를 사용한다: CNN은 도시 격자 셀의 공간적 특징을 처리하고, RNN은 연속된 일자 간의 시간적 의존성을 모델링한다.
  • 범죄 데이터는 일일 건수 기반으로 10개의 박스로 분할되며, 각 공간 영역에 대해 가장 가능성 있는 박스를 예측한다.
  • 기상, 인구 조사, 대중교통 등의 외부 데이터셋을 특징 표현을 풍부하게 하기 위해 추가 입력 채널로 통합한다.
  • 실시간 예측을 시뮬레이션하기 위해 워크-포워드 검증 전략을 사용해 모델을 훈련한다.
  • 특징 중요도는 데이터셋을 체계적으로 제거하고 정확도 감소를 측정함으로써 평가한다.
  • 범죄 빈도 수준(저, 중, 고), 기상 조건, 요일 유형(평일, 주말, 공휴일)에 따라 성능을 분석한다.

실험 결과

연구 질문

  • RQ1RNN과 CNN을 조합한 딥러닝 모델이 도시 지역에서 세밀한 공간 수준에서 일일 범죄 건수를 효과적으로 예측할 수 있는가?
  • RQ2기상, 인구 조사, 대중교통 등의 외부 데이터셋이 범죄 데이터만을 사용할 경우에 비해 예측 정확도 향상에 기여하는 정도는 어떠한가?
  • RQ3기본 범죄 빈도 수준(저, 중, 고)이 다른 범죄 지역(비트) 간에 모델 성능에 유의미한 차이가 존재하는가?
  • RQ4극심한 기상 조건(강우량 또는积 snow 높음)이 모델 예측 정확도에 영향을 미치는가?
  • RQ5대중교통 패턴과 요일 유형(평일 대비 주말/공휴일)이 모델 성능에 영향을 미치는가?

주요 결과

  • RNN+CNN 모델은 시카고에서 정확도 75.6%로 정확한 범죄 건수 박스를 예측하고, 포틀랜드에서는 65.3%의 정확도를 기록하여 뛰어난 예측 성능을 입증한다.
  • 외부 데이터셋을 제거할 경우 정확도가 감소하며, 특히 인구 조사 데이터가 가장 큰 기여를 하여 4.1% 감소하고, 대중교통 데이터는 2.3%, 기상 데이터는 0.7% 감소한다.
  • 일관되게 저범죄 빈도를 보이는 비트는 가장 정확하게 예측되며(전체 정확도 79.3%), 중간 빈도 비트는 변동성이 가장 크다.
  • 강우량이나积 snow가 많은 날에는 정확도가 약간 감소하지만, 영향은 미미하며 데이터 희소성 또는 본질적인 예측 불가능성 때문일 수 있다.
  • 기차역이 포함된 비트는 이웃한 비트보다 평균 1.2% 더 높은 정확도를 보이며, 평일 예측은 주말 예측보다 0.9% 더 정확하다.
  • 모델은 주말이나 공휴일보다 평일에 더 뛰어난 성능을 보이며, 공휴일 대비 1.1%의 정확도 우수성을 보이며, 이는 도시 활동 패턴이 더 일관되기 때문일 것이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.