[论文解读] Human-in-the-Loop Interpretability Prior
我们引入一个人类参与的先验 p(M),以优化既具预测性又具可解释性的模型,使用基于模型的优化方法以最小化所需的用户研究数量。
We often desire our models to be interpretable as well as accurate. Prior work on optimizing models for interpretability has relied on easy-to-quantify proxies for interpretability, such as sparsity or the number of operations required. In this work, we optimize for interpretability by directly including humans in the optimization loop. We develop an algorithm that minimizes the number of user studies to find models that are both predictive and interpretable and demonstrate our approach on several data sets. Our human subjects results show trends towards different proxy notions of interpretability on different datasets, which suggests that different proxies are preferred on different tasks.
研究动机与目标
- 推动在模型训练中集成人类可解释性,以提高安全性和有用性。
- 提出一个可实用的先验 p(M),直接从用户反馈中捕捉人类对可解释性的偏好。
- 开发一个成本效益高的流程,以识别高似然预测模型并在少量用户研究的条件下优化可解释性。
- 展示不同数据集与不同可解释性代理之间的对齐差异,强调上下文相关的偏好。
提出的方法
- 通过基于 SILF 的似然定义 p(X|M),以编码阈值化的性能标准。
- 将 p(M) 定义为一个人类可解释性先验(HIS),整合来自人工评估者的平均反应时间(RT)。
- 通过使用局部代理在局部近似复杂模型以进行 HIS 评估,将 p(M) 扩展到任意模型。
- 使用基于模型的优化(带有 UCB 获取函数的高斯过程)来选择要评估哪些模型以得到 p(M)。
- 在 p(X|M) 下识别一组多样化的高似然模型,然后在其中搜索以尽量少的用户研究来最大化 p(X|M)p(M)。
实验结果
研究问题
- RQ1我们如何以直接反映人类偏好的方式来量化可解释性?
- RQ2我们是否能够在减少人工评估数量的前提下高效地识别既准确又可解释的模型?
- RQ3在不同数据集和模型类别中,不同的可解释性代理是否与人类判断一致?
- RQ4与使用完整模型相比,使用局部代理在估计可解释性先验时的影响是什么?
主要发现
- 不同的可解释性代理会在每个数据集上导致不同的最优模型。
- 在少量数据点上计算正确的可解释性代理通常比在更大样本上使用错误的代理更优。
- 在跨数据集寻找人类偏好的可解释模型方面,基于模型的优化优于随机模型选择。
- 人类参与的循环优化产生响应时间更快、代理分数更低的模型,表明与人类可解释性的一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。