QUICK REVIEW

[論文レビュー] Robustness Verification of Tree-based Models

Hongge Chen, Huan Zhang|arXiv (Cornell University)|Jun 10, 2019

Adversarial Robustness in Machine Learning参考文献 46被引用数 23

ひとこと要約

本稿では、入力特徴次元（＝ボクシティ）が低い場合に多項式時間で検証可能な、木構造モデル（決定木、ランダムフォレスト、GBDT）のスケーラブルなロバストネス検証手法を提案する。この手法は、ボクシティが有界な多部グラフ上の最大クリーク探索問題に検証問題を再定式化することで、低次元問題では多項式時間での検証を可能にするとともに、任意の時点で停止可能なマルチレベルアルゴリズムを採用し、タイトな下界を提供する。その結果、MILPベースの手法と比較して最大3,000倍の高速化を達成しながら、大規模なモデルでも高いロバストネス検証精度を維持した。

ABSTRACT

We study the robustness verification problem for tree-based models, including decision trees, random forests (RFs) and gradient boosted decision trees (GBDTs). Formal robustness verification of decision tree ensembles involves finding the exact minimal adversarial perturbation or a guaranteed lower bound of it. Existing approaches find the minimal adversarial perturbation by a mixed integer linear programming (MILP) problem, which takes exponential time so is impractical for large ensembles. Although this verification problem is NP-complete in general, we give a more precise complexity characterization. We show that there is a simple linear time algorithm for verifying a single tree, and for tree ensembles, the verification problem can be cast as a max-clique problem on a multi-partite graph with bounded boxicity. For low dimensional problems when boxicity can be viewed as constant, this reformulation leads to a polynomial time algorithm. For general problems, by exploiting the boxicity of the graph, we develop an efficient multi-level verification algorithm that can give tight lower bounds on the robustness of decision tree ensembles, while allowing iterative improvement and any-time termination. OnRF/GBDT models trained on 10 datasets, our algorithm is hundreds of times faster than the previous approach that requires solving MILPs, and is able to give tight robustness verification bounds on large GBDTs with hundreds of deep trees.

研究の動機と目的

既存のMILPベースの木アンサンブルのロバストネス検証手法にはスケーラビリティと効率性の限界があり、NP完全性のためスケーリングが困難であることを解決すること。
大規模な木構造モデル（数百本の木を有する深層GBDTを含む）に対して、敵対的ロバストネスのタイトな下界を提供する形式的検証手法を開発すること。
任意の時点で停止可能で反復的改善が可能な仕組みを備えることで、実世界の応用における実用的ロバストネス検証を可能にすること。
NP完全性を越えた、ロバストネス検証問題のより精確な複雑性特徴付けを提供すること。

提案手法

木アンサンブルのロバストネス検証問題を、木の数Kに対応するK部グラフ上の最大クリーク問題に再定式化する。
グラフのボクシティ（＝入力特徴次元）を活用し、低次元問題では多項式時間での検証が可能となるような効率的アルゴリズムを設計する。
複数の段階でクリークを列挙することで段階的に下界を改善するマルチレベル検証アルゴリズムを提案し、任意の時点で停止可能であるようにする。
パラメータT（各段階でのクリークサイズ）とL（段階数）を用いた階層的クリーク列挙戦略を採用し、タイトさと効率性のバランスを図る。
NPハードなクリーク問題を正確に解かずに、グラフ構造に基づく緩和技術を用いることで、依然として強い下界を維持する。
動的計画法をアルゴリズムの変種に統合することで、下界の品質をさらに向上させるが、主な評価では使用しない。

実験結果

リサーチクエスチョン

RQ1単一の決定木の正確なロバストネス検証は線形時間で行えるか？
RQ2入力次元（およびボクシティ）が低い場合に、木アンサンブルの検証を多項式時間で行えるアルゴリズムは存在するか？
RQ3大規模な木アンサンブルに対して、タイトな下界を提供し、実用的な実行時間で動作する効率的でスケーラブルな検証アルゴリズムを設計できるか？
RQ4本手法は、実世界のデータセットにおいてMILPベースの検証とLP緩和と比較して、下界の品質と速度の両面で優れているか？

主な発見

本手法は、大規模なGBDTモデルにおいてMILPベースラインと比較して最大3,000倍の高速化を達成した。MNISTでは最も速い手法で1例あたり12.6秒で検証が完了したのに対し、MILPでは10分を要した。
ロバストに訓練されたGBDTでは、MNISTでε=0.2の条件下で78%の検証ロバストネス精度を達成し、MILP結果に非常に近い下界（比率0.96）を提供した。
HIGGSデータセットでは、MILPと比較して2,511倍の高速化を達成しながら、MILP結果と比較して0.75のロバストネス下界比率を維持した。
クリーク段階数Lを増やすにつれて、検証下界はMILP結果に収束し、近似の収束性とタイトさを示した。
本手法は木の数に対して劣線形にスケーリングするのに対し、MILP手法は超線形にスケーリングするため、数百本の木を有するモデルにおいて優れたスケーラビリティを示した。
MNISTにおけるピクセル重要度分析から、ロバストモデルでは感度の高いピクセル（色が濃い）が少ないことが示され、改善されたロバストネスを示した。黄色に色付けられたピクセルは下界1.0を示しており、1ピクセルの摂動では予測が変化しないことを意味する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。