[논문 리뷰] Predictive Enforcement
본 논문은 집행 결정이 범죄 데이터 수집에 영향을 미치는 동적이고 데이터에 기반한 법집행 모델을 개발하고, 변화하는 세계의 밴딧 프레임워크에서 외생적 및 내생적 범죄 하에서 예측적 집행의 최적성을 분석한다.
We study law enforcement guided by data-informed predictions of "hot spots" for likely criminal offenses. Such "predictive" enforcement could lead to data being selectively and disproportionately collected from neighborhoods targeted for enforcement by the prediction. Predictive enforcement that fails to account for this endogenous "datafication" may lead to the over-policing of traditionally high-crime neighborhoods and performs poorly, in particular, in some cases as poorly as if no data were used. Endogenizing the incentives for criminal offenses identifies additional deterrence benefits from the informationally efficient use of data.
연구 동기 및 목표
- 데이터에 기반한 예측이 경찰 맥락에서의 집행과 데이터 수집에 어떻게 영향을 주는지 동기 부여하고 형식화한다.
- 변화하는 세계를 가지는 연속시간 밴딧 프레임워크를 개발하여 집행과 데이터피케이션을 모델링한다.
- 최적의 예측적 집행 정책(OP)을 도출하고 이를 비예측적(NP) 및 탐욕적 예측(GP) 벤치마크와 비교한다.
- 집행이 데이터 수집 및 범죄 인센티브에 내생적으로 어떻게 작용하는지 연구한다.
- 예측적 집행이 복지를 개선하는 경우와 데이터 피드백 루프로 인해 저하될 수 있는 경우를 규명한다.
제안 방법
- 상태가 높음(H)일 때 레이트 lambda인 포아송 과정으로 도착하는 범죄를 막기 위해 단위당 비용 c로 [0,1] 범위의 집행 y_t를 선택하는 정책입안자(PM)를 모델링한다.
- 상태의 동역학은 전환 속도 rho_L 및 rho_H를 갖는 연속시간 마르코프 체인과 정상확률 π_0를 따른다.
- 예측은 베이즈 규칙에 따라 상태가 H일 확률 p_t에 대한 PM의 믿음(p_t)을 업데이트하며, 자연스러운 상태전이와 탐지를 통한 학습을 포함하는 미분방정식 dot{p}=f(p,y)로 정의된 믿음의 역학을 가진다.
- 세 가지 집행 규칙: 비예측적(NP), 탐욕적 예측(GP), 최적 예측(OP)을 형식화하고, 각각 서로 다른 의사결정 규칙 y(p)를 가진다.
- OP하에서 가치 함수를 위한 해밀토니안-자비-벨만(HJB) 방정식을 도출하는 동적계획법 문제를 해결하고, 임계정책 y(p)=1 if p>hat{p}이고 그렇지 않으면 0인 정책을 얻는다.
- OP의 임계값 hat{p}가 외생적 범죄률 x lambda에 따라 pi_0 및 pi_1에 상대적으로 위치하고, 중간 범위의 범죄율에서 OP가 GP 또는 NP를 우위에 둘 수 있음을 보인다.
실험 결과
연구 질문
- RQ1내생적 데이터피케이션(집행으로 인한 데이터 수집이 데이터 수집에 미치는 영향)이 예측적 집행의 복지와 효과에 어떤 영향을 미치는가?
- RQ2외생적 범죄 하에서 예측적 집행(OP)이 비예측적(NP) 또는 탐욕적 예측(GP) 정책보다 언제 더 우수한가?
- RQ3변화하는 세계의 동적 특성은 학습의 가치와 최적 집행의 구조를 어떻게 바꾸는가?
- RQ4집행에 반응하는 범죄 인센티브(내생적 범죄)가 있고 범죄자들이 데이터를 관찰할 수 있을 때 집행과 범죄에 어떤 일이 일어나는가?
- RQ5피드백 루프로 인해 예측 정책의 이점이 사라지는 시점과 예측이 더 우수한 억제력을 발휘하는 시점을 무엇인가?
주요 결과
- 외생적 범죄 하에서 GP는 장기적으로 NP를 능가하지 못하며, 외부 학습이 있을 때만 예외적으로 우수하다; 중간 비용에서 더 탐험적으로 작동하는(나의 근사적 순간보다 낮은 임계값을 가지는) OP가 GP를 능가할 수 있다.
- hat{p}가 pi_0 및 pi_1에 대해 x lambda와 c에 따라 세 가지 경우로 위치하며, Case 1(낮은 범죄율)에서 hat{p} > pi_0, Case 2(높은 범죄율)에서 hat{p}=hat{p}_M이고 hat{p}≤pi_1, Case 3(중간)에서 hat{p}이 (pi_1, pi_0) 사이이고 hat{p}<hat{p}_M이다.
- 범죄 유인을 내생화하는 경우(OP가 GP보다) 더 강력한 억제력을 제공하는데, OP가 정보 가치와 전략적 반응을 고려하기 때문이다.
- 비용 c가 충분히 작으면 GP와 OP가 정책상 일치하나, 내생적 인센티브가 있을 때도 균형에서 OP가 더 낮은 범죄를 유발한다.
- 예측상의 이점이 약해지면(예: 범죄자들이 데이터에 접근할 수 있게 될 때) 세 가지 규칙이 공통된 결과로 수렴하며 예측의 조건부 가치를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.