QUICK REVIEW

[論文レビュー] Boolean Decision Rules via Column Generation

Sanjeeb Dash, Oktay Günlük|arXiv (Cornell University)|May 24, 2018

Machine Learning and Data Classification被引用数 55

ひとこと要約

この論文は、カラム生成法を用いて二値分類のBoolean DNF/CNFルールセットを学習し、事前にルールをマイニングせずに精度と単純さのトレードオフを最適化し、複数のデータセットで競争力のある性能を示す。

ABSTRACT

This paper considers the learning of Boolean rules in either disjunctive normal form (DNF, OR-of-ANDs, equivalent to decision rule sets) or conjunctive normal form (CNF, AND-of-ORs) as an interpretable model for classification. An integer program is formulated to optimally trade classification accuracy for rule simplicity. Column generation (CG) is used to efficiently search over an exponential number of candidate clauses (conjunctions or disjunctions) without the need for heuristic rule mining. This approach also bounds the gap between the selected rule set and the best possible rule set on the training data. To handle large datasets, we propose an approximate CG algorithm using randomization. Compared to three recently proposed alternatives, the CG algorithm dominates the accuracy-simplicity trade-off in 7 out of 15 datasets. When maximized for accuracy, CG is competitive with rule learners designed for this purpose, sometimes finding significantly simpler solutions that are no less accurate.

研究の動機と目的

二値分類の解釈可能なBooleanルールモデル（DNF/CNF）を開発する。
精度とルールの複雑さのバランスを取る整数計画問題を定式化する。
指数的な句空間を効率的に探索するためにカラム生成を用いる。
性能保証を備えた大規模データセット向けの近似CGバリアントを提供する。
複数のデータセットで最近の代替手法に対する実証的な利点を示す。

提案手法

ルール集合の複雑さの制約を指定しつつハミング損失を最小化するIPを定式化する。
解を改善する連言（AND）および選言（OR）を含む句を反復的に追加するためにカラム生成を適用する。
双対変数を用いて最も改善をもたらす欠落句を探索するpricing問題を定義する。
句を、サイズの上限Dを設けた二値特徴量の連言として表現する。
小規模データセット向けの厳密なCGアプローチと、大規模データセット向けのランダム化を伴う近似CGを提供する。
16データセットにわたってCGをベイジアンルールセット、AM/BCD、RIPPER、CART、RFと比較する。

実験結果

リサーチクエスチョン

RQ1事前マイニングなしで、カラム生成はすべての潜在的なBoolean句を効率的に探索できるか。
RQ2CGの精度と単純さのトレードオフは、標準データセット上の最近のルールセット学習器とどう比較されるか。
RQ3小規模データと大規模データでのCGの理論的保証と実践的性能はどうか。
RQ4ランダムサンプリングを用いた近似CGは大規模データセットで精度を大幅に低下させるか。
RQ5CGは解釈可能なモデルに適した、より単純でかつ正確なルールセットを生み出せるか。

主な発見

CGは、精度と単純さのトレードオフにおいて、16データセット中8データセットで最近の手法の中で優位に立つ。
精度を最適化した場合、CGはRIPPERと競合し、いくつかのデータセットで精度の損失なしにより単純なモデルを生成できる。
小規模データセットでは厳密な最適性証明が成り立つ；大規模データセットでは、実用的な二段階アプローチ（近似Pricing Problemと制限付きMIP）が強力な結果をもたらす。
CGは大規模データセットで、精度を維持または向上させつつ、かなり単純なルールセットをよく生み出す（例：banknote、magic、FICO）。
tic-tac-toeや他のいくつかの大規模データセットでは、他手法が追随できない厳密またはほぼ厳密なルールセットをCGが見つける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。