[论文解读] A Learning Theoretic Perspective on Local Explainability
本文通过为局部近似方法中的模型准确率和解释保真度引入泛化界,建立了局部可解释性与学习理论之间的理论联系。证明了在测试时,局部可解释模型具有更好的泛化性能,并为从有限训练样本中得出的解释提供了新颖的泛化界。
In this paper, we explore connections between interpretable machine learning and learning theory through the lens of local approximation explanations. First, we tackle the traditional problem of performance generalization and bound the test-time accuracy of a model using a notion of how locally explainable it is. Second, we explore the novel problem of explanation generalization which is an important concern for a growing class of finite sample-based local approximation explanations. Finally, we validate our theoretical results empirically and show that they reflect what can be seen in practice.
研究动机与目标
- 为填补机器学习中局部可解释性如何影响模型泛化的理论理解空白。
- 形式化并分析有限样本局部近似方法中解释泛化的难题。
- 通过引入基于局部可解释性的理论界,弥合可解释机器学习与学习理论之间的鸿沟。
- 通过实证验证理论主张,证明其与实际观察到的行为一致。
提出的方法
- 基于一种局部可解释性度量,提出了一种测试时模型准确率的泛化界,量化了模型局部行为被近似的程度。
- 提出了一种新颖的局部解释泛化界,分析了有限样本解释在多大程度上能近似模型的真实局部行为。
- 使用结合局部近似保真度与经验风险的理论框架,推导出模型和解释性能的边界。
- 通过基于邻域的近似(如LIME风格方法)的形式化局部可解释性,分析了有限样本环境下的泛化行为。
- 应用统计学习理论中的标准工具,包括集中不等式,在对数据和模型行为的弱假设下推导出边界。
- 通过在标准数据集上的实证评估验证理论预测,将理论边界与观测到的泛化性能进行比较。
实验结果
研究问题
- RQ1局部可解释性如何影响测试时的模型准确率泛化?
- RQ2我们能否在理论上界定从有限训练样本中得出的局部解释的泛化性能?
- RQ3局部近似保真度与模型预测及解释的泛化之间有何关系?
- RQ4所提出的理论边界是否与实际局部解释设置中的经验观察一致?
主要发现
- 本文建立了一个随局部可解释性提高而改善的模型准确率泛化界,表明更局部可解释的模型具有更好的泛化性能。
- 为解释泛化推导出一个新的理论边界,表明在弱条件下,有限样本的局部解释可以被可靠地泛化。
- 实证验证表明,理论边界与观测到的性能相关,支持了所推导泛化保证的实际相关性。
- 结果表明,局部可解释性不仅是事后可解释性的工具,更是一种正则化因子,能提升机器学习模型的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。