QUICK REVIEW

[论文解读] Interpreting Classifiers through Attribute Interactions in Datasets

Andreas Henelius, Kai Puolamäki|arXiv (Cornell University)|Jul 24, 2017

Imbalanced Data Classification Techniques参考文献 16被引用 31

一句话总结

该论文提出了一种名为astrid的新方法，通过数据因子分解来解释黑箱分类器，识别属性之间的交互作用。该方法自动发现属性的最大基数分组，使得在重排（因子化）数据上训练的分类器与在原始数据上训练的分类器性能无法区分，从而揭示分类器如何利用联合属性依赖关系，而无需假设数据分布或模型类型。

ABSTRACT

In this work we present the novel ASTRID method for investigating which attribute interactions classifiers exploit when making predictions. Attribute interactions in classification tasks mean that two or more attributes together provide stronger evidence for a particular class label. Knowledge of such interactions makes models more interpretable by revealing associations between attributes. This has applications, e.g., in pharmacovigilance to identify interactions between drugs or in bioinformatics to investigate associations between single nucleotide polymorphisms. We also show how the found attribute partitioning is related to a factorisation of the data generating distribution and empirically demonstrate the utility of the proposed method.

研究动机与目标

开发一种通过揭示分类器如何利用输入属性之间交互作用来解释不透明分类器的方法。
识别出属性的最大基数分组，使得在数据因子化后分类器性能在统计上无法区分。
提供一种通用的、无需假设的方法，适用于任何分类器和数据分布。
实现对真实交互结构的实用属性分组发现，反映分类器实际利用的交互模式。
支持药物警戒和生物信息学等关键依赖多属性交互作用的实际应用领域。

提出的方法

该方法通过在原始数据和根据$\mathcal{S}$重排的数据上分别训练分类器，并比较其性能，来评估所提出的属性分组$\mathcal{S}$是否有效。
它使用对因子化数据的多次随机样本的置信区间（CI），评估原始分类器的准确率是否与因子化分类器的性能在统计上可区分。
若原始分类器的准确率落在因子化分类器性能的置信区间内，则认为分组$\mathcal{S}$有效。
该算法通过迭代测试分组并利用基于置信区间的假设检验来验证，逐步搜索最大基数分组。
该方法基于如下假设：若因子化结构$P(X|C; \mathcal{S}) = \prod_{S \in \mathcal{S}} P(X(\cdot,S)|C)$捕捉了真实的类条件结构，则分类器在重排数据上训练时不应损失准确率。
该方法计算效率高，时间复杂度为多项式时间，适用于中等规模数据集。

实验结果

研究问题

RQ1我们能否判断给定的属性分组是否反映了分类器实际利用的真实交互结构？
RQ2在数据因子化后，分类器性能在统计上无法区分的属性最大基数分组是什么？
RQ3与现有方法相比，该方法在识别监督学习中属性交互作用方面表现如何？
RQ4该方法在真实世界数据集中揭示有意义且非平凡的属性交互作用的程度如何？
RQ5该方法在数据规模、分类器类型和交互强度变化下的鲁棒性如何？

主要发现

在包含四个属性的合成数据集中，astrid正确识别出S = {{1,2}, {3}, {4}}为SVM和随机森林的合法分组，且原始准确率高于因子化模型的置信区间。
在朴素贝叶斯实验中，该方法正确识别出平凡分组S = {{1}, {2}, {3}, {4}}，因为分类器在所有因子化情况下的准确率均未改变。
在UCI平衡量表数据集上，astrid找到了一个大小为3的分组，最大组大小为2，Ojala & Garriga (2010)检验的p值为0.03，表明结果具有边缘显著性。
在蘑菇数据集上，astrid识别出一个大小为15的分组，最大组大小为7，分类器准确率达到99.5%，p值为0.00，表明存在强烈的交互结构证据。
在kr-vs-kp数据集上，该方法找到一个大小为33的分组，最大组大小为4，p值为0.00，表明因子化无效，与高复杂度交互结构一致。
该方法在不同分类器（SVM、随机森林和朴素贝叶斯）上表现出稳健性，在合成数据集和真实世界数据集上均获得一致结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。