[论文解读] Robustness Verification of Tree-based Models
该论文通过将验证问题重新表述为具有有界框维度的多部图上的最大团搜索问题,提出了一种新颖且可扩展的树模型(决策树、随机森林、GBDT)鲁棒性验证方法。该方法在低维问题中实现多项式时间验证,并采用多级算法提供任意时间终止的紧密下界,与基于MILP的方法相比,速度最高提升3,000倍,同时在大规模模型上保持了高鲁棒性验证精度。
We study the robustness verification problem for tree-based models, including decision trees, random forests (RFs) and gradient boosted decision trees (GBDTs). Formal robustness verification of decision tree ensembles involves finding the exact minimal adversarial perturbation or a guaranteed lower bound of it. Existing approaches find the minimal adversarial perturbation by a mixed integer linear programming (MILP) problem, which takes exponential time so is impractical for large ensembles. Although this verification problem is NP-complete in general, we give a more precise complexity characterization. We show that there is a simple linear time algorithm for verifying a single tree, and for tree ensembles, the verification problem can be cast as a max-clique problem on a multi-partite graph with bounded boxicity. For low dimensional problems when boxicity can be viewed as constant, this reformulation leads to a polynomial time algorithm. For general problems, by exploiting the boxicity of the graph, we develop an efficient multi-level verification algorithm that can give tight lower bounds on the robustness of decision tree ensembles, while allowing iterative improvement and any-time termination. OnRF/GBDT models trained on 10 datasets, our algorithm is hundreds of times faster than the previous approach that requires solving MILPs, and is able to give tight robustness verification bounds on large GBDTs with hundreds of deep trees.
研究动机与目标
- 解决现有基于MILP的树集成模型鲁棒性验证方法在可扩展性和效率方面的局限性,后者因NP完全性而扩展性差。
- 开发一种形式化验证方法,为大规模树模型(包括包含数百棵树的深层GBDT)提供对抗鲁棒性的紧密下界。
- 通过支持任意时间终止和迭代优化,实现在实际应用中可行的鲁棒性验证。
- 在NP完全性之外,提供对鲁棒性验证问题更精确的复杂度刻画。
提出的方法
- 将树集成模型的鲁棒性验证问题重新表述为K部图上的最大团问题,其中K为树的数量。
- 利用图的框维度(等于输入特征维度)设计高效算法,使低维问题实现多项式时间验证。
- 提出一种多级验证算法,通过在多个层级上枚举团来逐步改进下界,支持任意时间终止。
- 采用分层团枚举策略,参数包括T(每级团的大小)和L(层级数量),以平衡紧致性和效率。
- 基于图结构应用松弛技术,避免精确求解NP难的团问题,同时仍保持强下界。
- 在算法的一个变体中引入动态规划以进一步提升下界质量,但未在主评估中使用。
实验结果
研究问题
- RQ1单个决策树的精确鲁棒性验证是否可在O(n)时间内完成?
- RQ2当输入维度(即框维度)较低时,是否存在验证树集成模型的多项式时间算法?
- RQ3能否设计一种高效、可扩展的验证算法,用于大规模树集成模型,实现实用运行时间下的紧密下界?
- RQ4在真实数据集上,所提方法与基于MILP的验证和LP松弛相比,在下界质量和速度方面表现如何?
主要发现
- 在大规模GBDT模型上,所提方法相比MILP基线最高实现3,000倍的速度提升,最快方法在MNIST上每个样本仅需12.6秒,而MILP需10分钟。
- 在经过鲁棒性训练的GBDT上,MNIST数据集在ε=0.2时达到78%的验证鲁棒性准确率,验证下界与MILP结果接近(比值为0.96)。
- 在HIGGS数据集上,方法相比MILP实现2,511倍的速度提升,同时保持与精确MILP结果相比0.75的鲁棒性下界比值。
- 随着团层级数量(L)的增加,验证下界趋近于MILP结果,表明近似具有收敛性和紧致性。
- 该方法在树的数量上呈次线性扩展,而MILP方法呈超线性扩展,表明在包含数百棵树的模型上具有更优的可扩展性。
- 在MNIST上的像素重要性分析显示,鲁棒模型的敏感像素更少(颜色更暗),表明鲁棒性提升,其中黄色像素的下界为1.0,意味着单像素扰动无法改变预测结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。