[论文解读] Predictive Enforcement
论文提出一个动态、数据驱动的执法模型,其中执法决策影响犯罪数据的收集,并在变化世界带宽赌博框架下分析外生与内生犯罪下的最优预测执法。
We study law enforcement guided by data-informed predictions of "hot spots" for likely criminal offenses. Such "predictive" enforcement could lead to data being selectively and disproportionately collected from neighborhoods targeted for enforcement by the prediction. Predictive enforcement that fails to account for this endogenous "datafication" may lead to the over-policing of traditionally high-crime neighborhoods and performs poorly, in particular, in some cases as poorly as if no data were used. Endogenizing the incentives for criminal offenses identifies additional deterrence benefits from the informationally efficient use of data.
研究动机与目标
- 在警务情境中动机化并形式化数据驱动的预测如何影响执法与数据收集。
- 开发一个具有变化世界的连续时间带宽赌博框架,以建模执法与数据化。
- 推导一个最优预测执法政策(OP),并将其与非预测(NP)与贪婪预测(GP)基准进行比较。
- 将犯罪激励内生化,以研究执法对犯罪行为和数据收集的影响。
- 表征何时预测执法能提升福利,何时会因数据反馈环路而表现不佳。
提出的方法
- 建模一个政策制定者(PM)在高成本c/单位的成本下,在[0,1]区间选择执法 y_t,以防止到达的犯罪发生率为λ的泊松过程在状态为高(H)时发生。
- 状态动力学遵循具有切换速率ρ_L和ρ_H以及稳态概率π_0的连续时间马尔可夫链。
- 预测通过贝叶斯规则更新PM对状态为H的信念p_t,信念动态由包含自然状态转换与检测学习的微分方程 dot{p}=f(p,y)给出。
- 形成三种执法制度:非预测(NP)、贪婪预测(GP)和最优预测(OP),每种制度都有不同的决策规则 y(p)。
- 求解动态规划问题并导出OP下的价值函数的哈密顿-雅可比-贝尔曼(HJB)方程,得到阈值政策 y(p)=1 当 p>hat{p},否则为0。
- 证明OP的阈值 hat{p} 相对于 pi_0 与 pi_1 的位置取决于外生犯罪率 x λ,以及在中等成本下OP相较于GP或NP的优势。
实验结果
研究问题
- RQ1内生数据化(由执法驱动的数据收集)如何影响预测执法的福利与效果?
- RQ2在外生犯罪下,何时预测执法(OP)优于非预测(NP)或贪婪预测(GP)策略?
- RQ3变化世界动力学(随时间演化的状态)如何改变学习的价值与最优执法的结构?
- RQ4当犯罪激励对执法作出反应且犯罪者可观测数据时,执法与犯罪会如何变化?
- RQ5在反馈回路存在时,何时预测策略会失效,何时会带来更优的威慑效果?
主要发现
- 在外生犯罪下,GP在长期并不比NP优越,除非存在外部学习;OP通过在中等成本下进行更多探索(比短视阈值低)可超越GP。
- 最优阈值 hat{p} 根据 x λ 与 c 的三种情况而定:情形1(低犯罪率)hat{p} > pi_0;情形2(高犯罪率)hat{p}=hat{p}_M 且 hat{p}≤pi_1;情形3(中间)hat{p} ∈ (pi_1, pi_0) 且 hat{p}<hat{p}_M。
- 将犯罪激励内生化(犯罪对预期执法的反应)在OP下比GP带来更强的威慑,因为OP考虑了信息价值与战略响应。
- 在成本足够小的情况下,GP与OP在政策上相符,但当激励为内生时,OP在均衡中仍导致犯罪更低。
- 随着预测优势的减弱(例如犯罪者获得数据),三种制度收敛为共同结果,突显预测的条件性价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。