[论文解读] The Impact of Machine Learning Uncertainty on the Robustness of Counterfactual Explanations
该论文研究了机器学习模型中的诚实不确定性(aleatoric)和认知不确定性(epistemic)如何影响基于近似距离的对抗性解释在合成和真实表格数据集上的鲁棒性,结果显示即使准确率只有小幅下降,解释也可能不稳定。
Counterfactual explanations are widely used to interpret machine learning predictions by identifying minimal changes to input features that would alter a model's decision. However, most existing counterfactual methods have not been tested when model and data uncertainty change, resulting in explanations that may be unstable or invalid under real-world variability. In this work, we investigate the robustness of common combinations of machine learning models and counterfactual generation algorithms in the presence of both aleatoric and epistemic uncertainty. Through experiments on synthetic and real-world tabular datasets, we show that counterfactual explanations are highly sensitive to model uncertainty. In particular, we find that even small reductions in model accuracy - caused by increased noise or limited data - can lead to large variations in the generated counterfactuals on average and on individual instances. These findings underscore the need for uncertainty-aware explanation methods in domains such as finance and the social sciences.
研究动机与目标
- 评估不同来源的ML不确定性(aleatoric 与 epistemic)如何影响基于近似距离的对抗性解释(CE)的鲁棒性。
- 比较多种ML模型和CE算法,以理解真实世界表格数据集中CE在不确定性下的稳定性。
- 为高风险领域(如金融和社会科学)中的不确定性感知可解释性提供实用指南。
提出的方法
- 在受控噪声下使用合成和真实表格数据集研究CE的鲁棒性。
- 在不同数据集上评估多种分类器(逻辑回归、贝叶斯逻辑回归、随机森林、神经网络)和CE方法(DiCE、NICE、MILP 基于、RL 基于)。
- 定义并计算加权混合空间的L1距离以量化CE鲁棒性,并包括可比性归一化。
- 分析CE在FN、TN和总体准确率下的表现,以捕捉利益相关者相关的视角。
实验结果
研究问题
- RQ1噪声和不确定性对基于近似距离的对抗性解释的鲁棒性有何影响?
- RQ2更高预测准确性的模型是否总能在不同CE方法中提供更鲁棒的对抗性解释?
- RQ3在 Increasing noise 的条件下,哪些ML-CE方法组合表现出最稳定的对抗性解释?
- RQ4在合成数据集与真实表格数据集(German Credit、Adult Income、Give Me Some Credit)之间,CE鲁棒性模式有何不同?
主要发现
- 对抗性解释对模型不确定性高度敏感,些微准确率下降往往引起CE的显著变化。
- 更高的分类器准确性并不保证更鲁棒的CE,这挑战仅以预测性能来选择模型的常见做法。
- CE鲁棒性因数据集复杂性和特征维度而异,在某些场景下,不同的ML-CE组合比其他组合更稳定。
- 不同的CE方法(DiCE、NICE、MILP、RL)和分类器(LR、BLR、RF、NN)表现出不同的鲁棒性,单一组合并不能在所有设置中占优。
- 该研究提供了一个可扩展的鲁棒性框架并公开可获取的代码/数据,以复现实验并便于扩展分析。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。