[论文解读] Policy Evaluation and Optimization with Continuous Treatments
这篇论文将离策略评估和策略学习扩展到连续治疗,使用基于核的逆倾向权重方法,建立偏差/方差结果与一致性,并演示连续策略优化(CPO)结合 Warfarin 给药案例研究。它显示核化 OPE 收敛到最佳同类策略并且优于离散化基准。
We study the problem of policy evaluation and learning from batched contextual bandit data when treatments are continuous, going beyond previous work on discrete treatments. Previous work for discrete treatment/action spaces focuses on inverse probability weighting (IPW) and doubly robust (DR) methods that use a rejection sampling approach for evaluation and the equivalent weighted classification problem for learning. In the continuous setting, this reduction fails as we would almost surely reject all observations. To tackle the case of continuous treatments, we extend the IPW and DR approaches to the continuous setting using a kernel function that leverages treatment proximity to attenuate discrete rejection. Our policy estimator is consistent and we characterize the optimal bandwidth. The resulting continuous policy optimizer (CPO) approach using our estimator achieves convergent regret and approaches the best-in-class policy for learnable policy classes. We demonstrate that the estimator performs well and, in particular, outperforms a discretization-based benchmark. We further study the performance of our policy optimizer in a case study on personalized dosing based on a dataset of Warfarin patients, their covariates, and final therapeutic doses. Our learned policy outperforms benchmarks and nears the oracle-best linear policy.
研究动机与目标
- 将需要离策略评估和优化在连续治疗超越离散动作空间的动机。
- 开发一个核平滑的 IPW/DR 估计量,用以使用批量观测数据评估策略。
- 分析偏差、方差和均方误差,以建立一致性和最优带宽。
- 证明连续策略优化器的一致性并演示向最佳同类策略收敛。
提出的方法
- 为连续治疗定义广义倾向评分并使用核来放宽连续动作的 IPW 的拒绝采样。
- 提出连续治疗离策略评估量 hat{v}_{tau} = (1/(n h)) sum_i K((tau(x_i) - t_i)/h) * (y_i / Q_i).
- 引入自正规化变体 hat{v}_{tau}^{norm} 以减少方差。
- 在标准假设下推导偏差、方差和 MSE 结果,并确定渐近最优带宽 h* = Theta(n^{-1/5}).
- 将连续策略优化形式化为策略类 T 的加权经验风险最小化,并讨论实际优化(非凸性、随机重新启动)。
实验结果
研究问题
- RQ1我们是否可以在离散动作空间之外,使用批量观测数据来估计和优化连续治疗的策略?
- RQ2基于核的连续离策略评估的偏差与方差特征是什么,以及带宽应如何选择?
- RQ3提出的连续策略优化是否在所考虑的策略类内收敛到最佳同类策略?
- RQ4与离散化基准和直接方法相比,核化的连续 OPE 在实际医疗给药场景中表现如何?
- RQ5Warfarin 给药案例中关于个性化和策略性能有哪些洞见?
主要发现
- 在标准因果假设(无混杂性和共同支撑)下,核化的离策略评估器对连续治疗是一致的。
- 估计量的偏差为 O(h^2) 且方差为 O(1/(n h)),导致最优带宽 h* = Theta(n^{-1/5}).
- 自正规化版本的估计量保持一致并可降低方差。
- 策略优化使用的连续 OPE 实现的后悔损失收敛到零相对于所考虑的最佳同类策略(例如线性策略)。
- 合成数据和 Warfarin 给药的经验结果显示连续方法优于离散化基准并接近 Oracle 最佳线性策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。