QUICK REVIEW

[논문 리뷰] Robustness Verification of Tree-based Models

Hongge Chen, Huan Zhang|arXiv (Cornell University)|2019. 06. 10.

Adversarial Robustness in Machine Learning참고 문헌 46인용 수 23

한 줄 요약

이 논문은 입력 특성 차원(즉, 박스성질)이 낮은 경우 다항식 시간 검증이 가능한 다중 분할 그래프에서 최대 클리크 탐색으로 재구성된 트리 기반 모델(의사결정트리, 랜덤 포레스트, GBDT)에 대한 새로운 확장 가능한 강건성 검증 방법을 제안한다. 이 방법은 저차원 문제에 대해 다항식 시간 검증을 가능하게 하며, 임의의 시간 종료가 가능한 다수 수준의 알고리즘을 제공하여, MILP 기반 방법 대비 최대 3,000배 빠른 속도로 빠르게 작동하면서도 대규모 모델에서 높은 강건성 검증 정확도를 유지한다.

ABSTRACT

We study the robustness verification problem for tree-based models, including decision trees, random forests (RFs) and gradient boosted decision trees (GBDTs). Formal robustness verification of decision tree ensembles involves finding the exact minimal adversarial perturbation or a guaranteed lower bound of it. Existing approaches find the minimal adversarial perturbation by a mixed integer linear programming (MILP) problem, which takes exponential time so is impractical for large ensembles. Although this verification problem is NP-complete in general, we give a more precise complexity characterization. We show that there is a simple linear time algorithm for verifying a single tree, and for tree ensembles, the verification problem can be cast as a max-clique problem on a multi-partite graph with bounded boxicity. For low dimensional problems when boxicity can be viewed as constant, this reformulation leads to a polynomial time algorithm. For general problems, by exploiting the boxicity of the graph, we develop an efficient multi-level verification algorithm that can give tight lower bounds on the robustness of decision tree ensembles, while allowing iterative improvement and any-time termination. OnRF/GBDT models trained on 10 datasets, our algorithm is hundreds of times faster than the previous approach that requires solving MILPs, and is able to give tight robustness verification bounds on large GBDTs with hundreds of deep trees.

연구 동기 및 목표

기존의 MILP 기반 강건성 검증 방법의 확장성과 효율성에 대한 제약를 해결하기 위해, NP-완전성으로 인해 성능이 급격히 떨어지는 문제를 해결한다.
수백 개의 트리로 구성된 깊은 GBDT를 포함한 대규모 트리 기반 모델에 대해 적절한 하한을 제공하는 공식 검증 방법을 개발한다.
임의의 시간 종료 및 반복적 개선을 지원함으로써 실세계 응용에서 실용적인 강건성 검증을 가능하게 한다.
NP-완전성 이상의 복잡도 특성 분석을 넘어 강건성 검증 문제의 더 정밀한 복잡도 특성 분석을 제공한다.

제안 방법

트리 앙상블의 강건성 검증 문제를 K-분할 그래프에서 최대 클리크 문제로 재구성한다. 여기서 K는 트리의 수이다.
그래프의 박스성질(입력 특성 차원과 동일)을 활용하여 효율적인 알고리즘을 설계함으로써, 저차원 문제에 대해 다항식 시간 검증이 가능하도록 한다.
클리크를 다수 수준에 걸쳐 순차적으로 탐색함으로써 하한을 점진적으로 향상시키는 다수 수준의 검증 알고리즘을 제안하며, 임의의 시간 종료를 지원한다.
T(각 수준당 클리크 크기)와 L(수준 수)를 매개변수로 사용하는 계층적 클리크 탐색 전략을 도입하여, 정밀도와 효율성의 균형을 맞춘다.
정확한 NP-난해 클리크 문제를 해결하지 않기 위해 그래프 구조 기반의 허용 기법을 적용함으로써 강력한 하한을 유지한다.
동적 프로그래밍을 알고리즘의 변형에 통합하여 하한 품질을 추가로 향상시켰지만, 주요 평가에서는 사용하지 않았다.

실험 결과

연구 질문

RQ1단일 의사결정트리의 정확한 강건성 검증은 선형 시간 내에 수행될 수 있는가?
RQ2입력 차원(즉, 박스성질)이 낮을 경우 트리 앙상블의 강건성 검증을 위한 다항식 시간 알고리즘이 존재하는가?
RQ3대규모 트리 앙상블에 대해 정밀한 하한을 제공하면서도 실용적인 실행 시간을 확보하는 효율적이고 확장 가능한 검증 알고리즘을 설계할 수 있는가?
RQ4실세계 데이터셋에서 제안된 방법이 MILP 기반 검증 및 선형계획법(_LP_ relaxation)에 비해 하한 품질과 속도 측면에서 어떻게 비교되는가?

주요 결과

대규모 GBDT 모델에서 제안된 방법은 MILP 기반 기준 대비 최대 3,000배 빠른 속도를 기록했으며, MNIST에서 가장 빠른 방법은 예측 예제당 단 12.6초가 소요되었고, MILP는 10분이 소요되었다.
강건성 훈련을 거친 GBDT에서 MNIST의 ε=0.2에서 78%의 검증 강건성 정확도를 달성했으며, 하한 비율이 MILP 결과와 매우 유사하여 0.96의 비율을 기록했다.
HIGGS 데이터셋에서 MILP 대비 2,511배 빠른 속도를 기록했고, 정확한 MILP 결과 대비 강건성 하한 비율은 0.75를 유지했다.
클리크 수준 수(L)가 증가할수록 검증 하한이 MILP 결과에 수렴함을 확인하여, 근사의 수렴성과 정밀도를 입증했다.
제안된 방법은 트리 수에 대해 비선형적으로 증가하는 MILP 방법과는 달리, 하위선형적으로 증가함을 보여 대규모 트리 앙상블에서 뛰어난 확장성을 확보했다.
MNIST에서의 픽셀 중요도 분석 결과, 강건 모델은 더 적은 수의 민감한 픽셀(색상이 더 진한)을 가지며, 더 높은 강건성을 보였으며, 노란색 픽셀의 하한은 1.0이었고, 이는 단일 픽셀 변형으로도 예측을 바꿀 수 없음을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.