Skip to main content
QUICK REVIEW

[论文解读] Boolean Decision Rules via Column Generation

Sanjeeb Dash, Oktay Günlük|arXiv (Cornell University)|May 24, 2018
Machine Learning and Data Classification被引用 55
一句话总结

论文引入列生成方法来学习用于二元分类的布尔 DNF/CNF 规则集,在不进行规则预挖掘的情况下优化准确性与简约性之间的权衡,并在多个数据集上展示了具有竞争力的性能。

ABSTRACT

This paper considers the learning of Boolean rules in either disjunctive normal form (DNF, OR-of-ANDs, equivalent to decision rule sets) or conjunctive normal form (CNF, AND-of-ORs) as an interpretable model for classification. An integer program is formulated to optimally trade classification accuracy for rule simplicity. Column generation (CG) is used to efficiently search over an exponential number of candidate clauses (conjunctions or disjunctions) without the need for heuristic rule mining. This approach also bounds the gap between the selected rule set and the best possible rule set on the training data. To handle large datasets, we propose an approximate CG algorithm using randomization. Compared to three recently proposed alternatives, the CG algorithm dominates the accuracy-simplicity trade-off in 7 out of 15 datasets. When maximized for accuracy, CG is competitive with rule learners designed for this purpose, sometimes finding significantly simpler solutions that are no less accurate.

研究动机与目标

  • 发展一个可解释的布尔规则模型(DNF/CNF)用于二元分类。
  • 构建一个同时平衡准确性与规则复杂度的整数规划问题。
  • 使用列生成在指数级的子句空间中高效搜索。
  • 为大数据集提供具有性能保证的近似 CG 变体。
  • 在多个数据集上展示相对于最新方法的经验优势。

提出的方法

  • 构建一个最小化海明损失且对规则集合设定复杂度上限的 IP。
  • 应用列生成逐步添加提升解的子句(合取/析取)。
  • 定义一个定价问题,使用对偶变量搜索最能改进的缺失子句。
  • 将子句表示为二进制特征的合取,子句大小上限为 D。
  • 为小数据集提供精确的 CG 方法,对大数据集提供带随机化的近似 CG。
  • 将 CG 与 Bayesian Rule Sets、AM/BCD、RIPPER、CART 与 RF 在16个数据集上比较。

实验结果

研究问题

  • RQ1列生成在无需预挖掘的情况下,是否能高效搜索所有潜在的布尔子句?
  • RQ2在标准数据集上,CG 的准确性与简约性权衡与近期的规则集合学习器相比如何?
  • RQ3针对小数据集与大数据集,CG 的理论保证与实际性能如何?
  • RQ4带随机抽样的近似 CG 在大数据集上会显著降低准确性吗?
  • RQ5CG 是否能产生更简单但同样准确的可解释模型的规则集?

主要发现

  • 在8/16数据集的准确性-简约性权衡方面,CG 主导了若干最近方法。
  • 当以准确性为优化目标时,CG 与 RIPPER 竞争,并且在某些数据集上可以产生更简单的模型且不损失准确性。
  • 对小数据集,存在精确的最优性证明;对于较大数据集,采用实际的两阶段方法(近似 Pricing Problem + Restricted MIP)获得了强结果。
  • CG 常常产生显著更简单的规则集,在较大数据集上保持或提高准确性(例如 banknote、magic、FICO)。
  • 在 tic-tac-toe 及一些较大数据集上,CG 找到其他方法难以匹配的精确或近似精确的规则集。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。