QUICK REVIEW

[论文解读] Feature Importance Measure for Non-linear Learning Algorithms

Marina M.-C. Vidovic, Nico Görnitz|arXiv (Cornell University)|Nov 22, 2016

Neural Networks and Applications参考文献 10被引用 24

一句话总结

本文提出了一种通用的非线性特征重要性度量方法——特征重要性度量（MFI），适用于任意学习机器，包括核方法和深度神经网络。MFI通过测量当特征被固定时预测结果的变化，实现基于模型的全局解释和基于实例的局部解释，能够捕捉复杂的特征交互关系；实验表明，该方法在图像和DNA序列数据中能有效识别关键特征，其性能劣化测试优于随机模糊化方法。

ABSTRACT

Complex problems may require sophisticated, non-linear learning methods such as kernel machines or deep neural networks to achieve state of the art prediction accuracies. However, high prediction accuracies are not the only objective to consider when solving problems using machine learning. Instead, particular scientific applications require some explanation of the learned prediction function. Unfortunately, most methods do not come with out of the box straight forward interpretation. Even linear prediction functions are not straight forward to explain if features exhibit complex correlation structure. In this paper, we propose the Measure of Feature Importance (MFI). MFI is general and can be applied to any arbitrary learning machine (including kernel machines and deep learning). MFI is intrinsically non-linear and can detect features that by itself are inconspicuous and only impact the prediction function through their interaction with other features. Lastly, MFI can be used for both --- model-based feature importance and instance-based feature importance (i.e, measuring the importance of a feature for a particular data point).

研究动机与目标

解决复杂非线性学习模型（如核机器和深度神经网络）中可解释特征重要性的缺失问题。
开发一种能够捕捉非线性特征交互作用的方法，即单个特征本身不重要，但组合后具有显著影响。
在统一框架下实现基于模型（全局）和基于实例（局部）的特征重要性解释。
将现有方法（如POIMs和FIRM）推广至更广泛的数据类型和学习算法。

提出的方法

MFI通过条件期望定义：Sϕ,f(t) = E[s(X)ϕ(X) | f(X) = t]，其中ϕ为解释模式，f为感兴趣特征。
核MFI通过核函数的协方差扩展MFI：S⁺ϕ,f(t) = Cov[k(s(X),s(·)), l(ϕ(X),ϕ(·)) | f(X) = t]，实现非线性、非参数化估计。
解释模式ϕ决定了方法是基于实例（如ϕ(X)=1表示像素/序列位置）还是基于模型（如ϕ(X)=X或ϕ(X)=B表示基序图）。
在估计过程中，采用固定样本量（实验中为1000）的蒙特卡洛采样来近似条件期望。
该方法应用于图像（USPS数字分类）和序列（DNA剪接位点）数据，分别使用RBF-SVM和WD-kernel SVM。
通过测量按MFI重要性排序的特征被模糊化后分类器准确率的损失，与随机模糊化进行比较，评估性能。

实验结果

研究问题

RQ1能否开发一种通用的非线性特征重要性度量方法，使其适用于包括深度网络和核方法在内的多种学习机器？
RQ2MFI在检测仅通过与其他特征交互才产生影响的特征方面表现如何？
RQ3MFI能否提供与人类直觉和模型行为一致的有意义的实例特定解释？
RQ4基于MFI的特征排序是否会导致模糊化时性能劣化速度明显快于随机特征模糊化？

主要发现

在图像数据中，MFI识别出数字'3'的上下部分连接的垂直桥接区域为高度重要特征；模糊化这些像素导致性能下降速度显著快于随机模糊化。
在DNA序列分类中，MFI正确突出了两个插入基序（GGCCGTAAA和TTTCACGTTGA）作为判别性特征，且误分类样本在至少一个基序上缺乏证据。
连续MFI估计之间的Frobenius距离在仅215个样本后收敛至零，表明估计稳定，尽管运行时间近似呈指数增长。
在样本量为1000时，MFI在运行时间与准确率之间实现了良好平衡，后续所有实验均采用此设置。
基于实例的MFI正确识别出误分类样本中的判别性特征，如缺失的基序模式或数字中缺失的垂直连接。
核MFI在性能劣化测试中优于随机模糊化，证实MFI能根据特征对预测的影响程度进行有意义的排序。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。