[论文解读] Behaviour Policy Estimation in Off-Policy Policy Evaluation: Calibration Matters
本文研究了医疗保健领域离策略策略评估(OPE)中的行为策略估计问题,表明模型校准对OPE准确性具有决定性影响。基于真实脓毒症数据集的实验表明,简单的k近邻(kNN)模型生成的行为策略估计比深度神经网络更校准,从而显著提升了基于重要性采样方法的OPE结果准确性。
In this work, we consider the problem of estimating a behaviour policy for use in Off-Policy Policy Evaluation (OPE) when the true behaviour policy is unknown. Via a series of empirical studies, we demonstrate how accurate OPE is strongly dependent on the calibration of estimated behaviour policy models: how precisely the behaviour policy is estimated from data. We show how powerful parametric models such as neural networks can result in highly uncalibrated behaviour policy models on a real-world medical dataset, and illustrate how a simple, non-parametric, k-nearest neighbours model produces better calibrated behaviour policy estimates and can be used to obtain superior importance sampling-based OPE estimates.
研究动机与目标
- 探究行为策略估计质量对真实医疗应用中离策略策略评估(OPE)准确性的影响。
- 解决观察性数据中未知行为策略的挑战,特别是在医疗决策领域。
- 评估非参数模型(如kNN)是否能生成比强大参数模型(如神经网络)更校准的行为策略估计。
- 证明行为策略模型的改进校准可提升基于重要性采样方法的OPE估计准确性。
- 为数据有限的真实世界领域提供一种实用且可靠的策略,以增强OPE性能。
提出的方法
- 在真实脓毒症数据集上,通过k近邻(kNN)、神经网络(NN)及其他参数模型,实证评估行为策略估计。
- 使用逐时加权重要性采样(PHWIS)和逐时加权双重稳健(PHWDR)估计器进行离策略价值评估。
- 通过轨迹间估计行为策略概率与真实行为策略概率的平均绝对误差来评估校准程度。
- 使用估计值与策略内值估计之间的均方误差(MSE)比较OPE性能,并采用自 resampling 方法以增强稳健性。
- 通过随机划分和基于干预的划分将数据分为训练集与评估集,以模拟真实的策略评估场景。
- 使用拟合Q迭代结合随机森林估计动作值函数,以降低PHWDR估计器中OPE估计的方差。
实验结果
研究问题
- RQ1在受控导航领域中,行为策略估计的校准程度如何影响离策略策略评估(OPE)的准确性?
- RQ2在真实世界医疗数据(如脓毒症治疗轨迹)中,深度神经网络在多大程度上产生未校准的行为策略估计?
- RQ3在医疗OPE设置中,非参数kNN模型是否能生成比参数模型(如神经网络)更校准的行为策略估计?
- RQ4使用更校准的行为策略模型是否能通过均方误差(MSE)指标提升OPE性能?
- RQ5PHWDR估计器中近似模型(AM)项的主导性如何影响OPE对行为策略校准的敏感性?
主要发现
- 即使行为策略估计误差很小(例如平均绝对误差为0.06),也可能导致基于重要性采样方法的OPE估计出现超过50%的分数误差。
- 在脓毒症领域,基于神经网络的行为策略模型表现出显著的校准偏差,包括过度自信和错误的概率估计。
- kNN-based行为策略模型在所有评估的参数模型中(包括深度神经网络)均生成了更校准的估计。
- 在使用PHWIS方法进行干预划分时,使用kNN模型进行行为策略估计的OPE均方误差(MSE)为2.04,而使用神经网络时为4.65,显著更低。
- PHWDR估计器对行为策略校准的敏感性较低,这是由于近似模型(AM)项的主导作用,尤其是在干预划分场景下。
- 在随机划分场景中,kNN模型在PHWDR下实现了最低MSE(2.04),而神经网络表现相近(MSE为3.90),表明当AM项较强时,校准依赖性降低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。