[论文解读] Explainable Neural Networks based on Additive Index Models
论文介绍了一种基于可解释性神经网路(xNN)的架构,该架构由加性指标模型构成,通过投影层和单变量岭回归函数提供可解释的特征工程,同时保持具有竞争力的预测性能。它还展示了用以理解所学组件的可视化技术,并讨论了用于简约性的正则化。
Machine Learning algorithms are increasingly being used in recent years due to their flexibility in model fitting and increased predictive performance. However, the complexity of the models makes them hard for the data analyst to interpret the results and explain them without additional tools. This has led to much research in developing various approaches to understand the model behavior. In this paper, we present the Explainable Neural Network (xNN), a structured neural network designed especially to learn interpretable features. Unlike fully connected neural networks, the features engineered by the xNN can be extracted from the network in a relatively straightforward manner and the results displayed. With appropriate regularization, the xNN provides a parsimonious explanation of the relationship between the features and the output. We illustrate this interpretable feature--engineering property on simulated examples.
研究动机与目标
- 激发在受监管领域如银行业和医疗保健中对可解释机器学习的需求。
- 提出一种结构化的神经网络(xNN),能够产生可解释的特征和岭回归函数。
- 展示xNN如何学习输入的线性组合以及单变量非线性变换。
- 通过对岭回归函数和条件效应的可视化来展示xNN的可解释性。
提出的方法
- 定义一个加性指标模型并推导其神经网络实现(xNN),包含投影层、学习单变量岭回归函数的子网络,以及一个组合层。
- 让结构确保每个岭回归函数通过投影层的输入线性投影来学习。
- 使用子网络建模单变量变换,以及一个线性-激活组合层来形成最终输出。
- 启用正则化(对投影权重和岭权重的L1正则化)以促进简约性和可解释性。
- 允许与小批量优化和GPU加速兼容的基于梯度的训练。
- 提供可解释学到的岭回归函数和条件效应的可视化技术。
实验结果
研究问题
- RQ1xNN是否能够通过其加性指标结构提供对所学习特征的可解释说明?
- RQ2正则化如何影响xNN的模型可恢复性与可解释性之间的平衡?
- RQ3当作为主模型或代理模型使用时,xNN的性能与其他模型相比如何?
- RQ4有哪些实用的可视化工具(岭回归函数、投影指标、条件效应)有助于解释?
- RQ5当数据生成机制与加性指标模型一致时,xNN在多大程度上能够真实地恢复?
主要发现
- 岭回归函数和投影系数揭示了哪些输入组合驱动了每个学习得到的单变量变换。
- 对投影和岭权重的L1惩罚的正则化促进稀疏性,使模型更简约、可解释。
- 在具有乘法交互的线性模型中,xNN识别出对应线性和二次项的活动子网络并恢复交互结构。
- 在不适合加性指标框架的非线性模型中,xNN仍然具有可解释性,展示了投影和岭回归函数如何近似目标。
- 示例1的保持集MSE为0.0028,接近下界0.0025。
- 示例2的保持集MSE为0.0122,接近下界0.01。
- 论文强调,即使模型可恢复性有限,也可以实现可解释性,并且xNN可以作为其他模型的代理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。