QUICK REVIEW

[논문 리뷰] Boolean Decision Rules via Column Generation

Sanjeeb Dash, Oktay Günlük|arXiv (Cornell University)|2018. 05. 24.

Machine Learning and Data Classification인용 수 55

한 줄 요약

본 논문은 이진 분류를 위한 불리언 DNF/CNF 규칙 집합을 학습하기 위해 열 생성(column generation) 방법을 도입하고, 규칙의 사전 채굴 없이 정확도-단순성 트레이드오프를 최적화하며, 여러 데이터셋에서 경쟁력 있는 성능을 보임을 보인다.

ABSTRACT

This paper considers the learning of Boolean rules in either disjunctive normal form (DNF, OR-of-ANDs, equivalent to decision rule sets) or conjunctive normal form (CNF, AND-of-ORs) as an interpretable model for classification. An integer program is formulated to optimally trade classification accuracy for rule simplicity. Column generation (CG) is used to efficiently search over an exponential number of candidate clauses (conjunctions or disjunctions) without the need for heuristic rule mining. This approach also bounds the gap between the selected rule set and the best possible rule set on the training data. To handle large datasets, we propose an approximate CG algorithm using randomization. Compared to three recently proposed alternatives, the CG algorithm dominates the accuracy-simplicity trade-off in 7 out of 15 datasets. When maximized for accuracy, CG is competitive with rule learners designed for this purpose, sometimes finding significantly simpler solutions that are no less accurate.

연구 동기 및 목표

이진 분류를 위한 해석 가능한 불리언 규칙 모델(DNF/CNF)을 개발한다.
정확도와 규칙 복잡도의 균형을 맞추는 정수 프로그래밍 문제를 형식화한다.
지수 크기의 절( clause ) 공간을 효율적으로 탐색하기 위해 열 생성(column generation)을 사용한다.
성능 보장이 있는 대규모 데이터 세트용 근사 CG 변형을 제공한다.
여러 데이터세트에서 최근 대안들에 비해 경험적 이점을 입증한다.

제안 방법

규칙 집합의 복잡도 한계를 갖는 해밍 손실(Hamming loss)을 최소화하는 IP를 형식화한다.
해를 개선하는 반복적으로 절(합성/배합)을 추가하기 위해 열 생성(column generation)을 적용한다.
대수 변수(dual variables)를 사용하여 가장 개선 효과가 큰 누락된 절을 탐색하는 가격 문제를 정의한다.
절을 이진 특징들의 conjunction으로 표현하고 크기 상한 D를 둔다.
작은 데이터셋에는 정확한 CG 접근법을, 큰 데이터셋에는 무작위화를 통한 근사 CG를 제공한다.
CG를 16개 데이터셋에 대해 Bayesian Rule Sets, AM/BCD, RIPPER, CART, RF와 비교한다.

실험 결과

연구 질문

RQ1사전 채굴 없이 열 생성이 모든 잠재 불리언 절들을 효율적으로 탐색할 수 있는가?
RQ2표준 데이터셋에서 CG의 정확도-단순성 트레이드오프가 최근의 규칙 집합 학습자들과 어떻게 비교되는가?
RQ3작은 데이터셋과 큰 데이터셋에서 CG의 이론적 보장과 실제 성능은 무엇인가?
RQ4무작위 샘플링을 이용한 근사 CG가 큰 데이터셋에서 정확도를 크게 저하시키는가?
RQ5CG가 해석 가능한 모델에 적합한 더 간단하면서도 정확한 규칙 집합을 생성할 수 있는가?

주요 결과

CG는 정확도-단순성 트레이드오프에서 16개 데이터셋 중 8개에서 여러 최근 방법을 능가한다.
정확도에 최적화될 때 CG는 RIPPER와 경쟁력이 있으며 일부 데이터셋에서 정확도 손실 없이 더 단순한 모델을 생성할 수 있다.
작은 데이터셋에 대해 정확한 최적성 증명이 성립한다; 더 큰 데이터셋에 대해서는 근사 Pricing Problem과 제한된 MIP를 이용한 실용적 2단계 접근이 강한 결과를 낳는다.
CG는 종종 더 단순한 규칙 집합을 만들어 더 큰 데이터셋에서도 정확도를 유지하거나 향상시키며(예: banknote, magic, FICO).
틱택토 데이터와 일부 대형 데이터셋에서 CG는 다른 방법들이 대등하게 만들지 못하는 정확한 또는 거의 정확한 규칙 집합을 찾는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.