[论文解读] Interpreting Black Box Models with Statistical Guarantees.
本文将黑箱模型可解释性重新定义为多重假设检验问题,以控制有限样本下的错误率,提出一种通过对比反事实样本测试模型预测来识别关键特征的方法。该研究提出了一种可证明控制FDR的方法及其近似变体,两者在视觉与语言模型中均展现出高统计功效和直观、可解释的解释结果。
In science and medicine, model interpretations may be reported as discoveries of natural phenomena or used to guide patient treatments. In such high-stakes tasks, false discoveries may lead investigators astray. These applications would therefore benefit from control over the finite-sample error rate of interpretations. We reframe black box model interpretability as a multiple hypothesis testing problem. The task is to discover important features by testing whether the model prediction is significantly different from what would be expected if the features were replaced with uninformative counterfactuals. We propose two testing methods: one that provably controls the false discovery rate but which is not yet feasible for large-scale applications, and an approximate testing method which can be applied to real-world data sets. In simulation, both tests have high power relative to existing interpretability methods. When applied to state-of-the-art vision and language models, the framework selects features that intuitively explain model predictions. The resulting explanations have the additional advantage that they are themselves easy to interpret.
研究动机与目标
- 为高风险科学与医疗应用中的模型可解释性中的假发现风险提供解决方案。
- 控制特征归因中的有限样本错误率,确保解释结果的可靠性。
- 将可解释性重新定义为多重假设检验问题,以实现统计保障。
- 开发一种方法,识别出其移除会显著改变模型预测的特征。
提出的方法
- 将特征重要性重新表述为多重假设检验问题,其中每个特征均被检验其在影响模型预测中的显著性。
- 通过将特征替换为无信息值来定义反事实样本,以评估其对预测的影响。
- 提出一种基于置换或重采样策略生成的p值的、可证明控制FDR的检验程序。
- 开发一种近似检验方法,通过高效估算p值,实现对大规模数据集的可扩展性。
- 利用该检验框架识别出在扰动时会导致模型输出显著变化的特征。
- 通过设计确保生成的解释在统计上可靠且对人类直观可解释。
实验结果
研究问题
- RQ1我们能否在有限样本下控制黑箱模型特征归因中的错误发现率?
- RQ2我们如何识别出真正影响模型预测的特征,同时最小化假阳性?
- RQ3我们能否在保持统计严谨性的同时,将可解释性方法扩展至现实世界中的视觉与语言模型?
- RQ4所提出的方法是否能生成在统计上有效且直观有意义的解释?
主要发现
- 所提出的框架在特征归因中有效控制了错误发现率,降低了高风险应用中假发现的风险。
- 可证明控制FDR的方法在模拟实验中相比现有可解释性方法展现出更高的统计功效。
- 近似检验方法使该方法能够应用于精确计算不可行的真实世界视觉与语言模型。
- 在最先进模型上的应用表明,该方法能识别出直观解释预测的关键特征,如相关图像区域或语言标记。
- 生成的解释不仅准确,而且本质上可解释,因为其源于清晰的统计检验。
- 在模拟研究中,该框架在保持强大统计保障的同时,相比现有方法展现出更高的统计功效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。