[论文解读] NeuroRule: A Connectionist Approach to Data Mining
本文展示从神经网络中提取显式、简洁的分类规则以实现数据挖掘,并将 NeuroRule 与决策树方法进行比较,显示出竞争力的准确性。
Classification, which involves finding rules that partition a given data set into disjoint groups, is one class of data mining problems. Approaches proposed so far for mining classification rules for large databases are mainly decision tree based symbolic learning methods. The connectionist approach based on neural networks has been thought not well suited for data mining. One of the major reasons cited is that knowledge generated by neural networks is not explicitly represented in the form of rules suitable for verification or interpretation by humans. This paper examines this issue. With our newly developed algorithms, rules which are similar to, or more concise than those generated by the symbolic methods can be extracted from the neural networks. The data mining process using neural networks with the emphasis on rule extraction is described. Experimental results and comparison with previously published works are presented.
研究动机与目标
- 尽管存在传统批评,论证连接主义方法在数据挖掘中的作用。
- 开发从神经网络中提取显式、可用的分类规则的算法。
- 将 NeuroRule 作为一个具有训练、剪枝和规则提取组件的数据挖掘系统进行展示。
- 在基准问题上对 NeuroRule 进行实证评估,并与决策树基线(C4.5)进行比较。
提出的方法
- 使用一个三层前馈神经网络(输入层、隐藏层、输出层),其误差为交叉熵并附带用于剪枝的惩罚项。
- 使用 BFGS 进行训练以加速收敛。
- 应用剪枝算法在不损失精度的前提下去除冗余权重。
- 通过规则提取算法(RX)对剪枝后的网络进行显式规则提取,该算法将隐藏节点激活离散化并生成规则。
- 可选地为高维度的隐藏节点创建子网络以简化规则提取。
- 在 Agrawal 等人基准问题上将提取的规则及准确性与 C4.5 进行比较。
实验结果
研究问题
- RQ1是否可以在不牺牲准确性的前提下从训练好的神经网络中提取显式、易于人类解释的规则?
- RQ2与符号学习方法(如 C4.5)相比,NeuroRule 在准确性和规则简洁性方面的表现如何?
- RQ3网络剪枝对规则质量和计算效率有哪些影响?
- RQ4规则提取过程是否可扩展到具有大量属性的大型数据库?
主要发现
| 函数 | 剪枝网络 训练 | 剪枝网络 测试 | C4.5 训练 | C4.5 测试 |
|---|---|---|---|---|
| 1 | 98.1 | 100.0 | 98.3 | 100.0 |
| 2 | 96.3 | 100.0 | 98.7 | 96.0 |
| 3 | 98.5 | 100.0 | 99.5 | 99.1 |
| 4 | 90.6 | 92.9 | 94.0 | 89.7 |
| 5 | 90.4 | 93.1 | 96.8 | 94.4 |
| 6 | 90.1 | 90.9 | 94.0 | 91.7 |
| 7 | 91.9 | 91.4 | 98.1 | 93.6 |
| 9 | 90.1 | 90.9 | 94.4 | 91.8 |
- 神经网络能够产生简洁且可提取的规则,在相关问题上错误率通常低于决策树方法。
- 函数2的剪枝网络仅使用了386条初始链接中的17条,产生了紧凑、可解释的规则。
- 在多个基准函数上,NeuroRule 的分类准确性与 C4.5 相当或更高(如函数1–3、4–7、9)。
- 规则提取(RX)过程将隐藏节点激活离散化,以枚举依赖关系并生成将输入映射到输出的规则。
- 提取的规则能够紧密再现原始分类函数,且在简单情况下可与之完全匹配。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。