[論文レビュー] Evasion and Hardening of Tree Ensemble Classifiers
本稿では、木アンサンブル分類器を回避するための2つのアルゴリズムを提案する:正確な混合整数線形プログラミング(MILP)ベースの手法と、記号的予測を用いた高速な近似手法。勾配ブースティング木とランダムフォレストが微小な摂動に対して極めて脆弱であることを示し、訓練時における「敵対的ブースティング」と呼ばれるハードニング技術を導入。この手法は訓練データに敵対的インスタンスを追加することで、精度を損なわずにモデルの耐性を著しく向上させる。
Classifier evasion consists in finding for a given instance $x$ the nearest instance $x'$ such that the classifier predictions of $x$ and $x'$ are different. We present two novel algorithms for systematically computing evasions for tree ensembles such as boosted trees and random forests. Our first algorithm uses a Mixed Integer Linear Program solver and finds the optimal evading instance under an expressive set of constraints. Our second algorithm trades off optimality for speed by using symbolic prediction, a novel algorithm for fast finite differences on tree ensembles. On a digit recognition task, we demonstrate that both gradient boosted trees and random forests are extremely susceptible to evasions. Finally, we harden a boosted tree model without loss of predictive accuracy by augmenting the training set of each boosting round with evading instances, a technique we call adversarial boosting.
研究の動機と目的
- 勾配ブースティング木やランダムフォレストなどの木アンサンブルモデルが、敵対的摂動に対してどれほど耐性があるかを体系的に分析すること。
- Lpノルム(p=0,1,2,∞)の下で最適な摂動を求めるために、混合整数線形プログラミング(MILP)を用いた新しい正確な回避アルゴリズムの開発。
- 木アンサンブルに対する非微分可能関数に対して、高速でスケーラブルな敵対的インスタンス生成のための、記号的予測を用いた近似手法の設計。
- ブースティングの各ラウンドで、敵対的インスタンスを追加することで、木アンサンブルモデルの回避攻撃に対する耐性を強化すること。
- 他のモデル(DNN、SVM、ロジスティック回帰など)と比較して、木アンサンブルの耐性を実験的に評価すること。
提案手法
- 入力xを誤分類させる最小のLpノルム摂動δを計算するために、混合整数線形プログラミング(MILP)を用いる。
- 木アンサンブルにおける高速な有限差分推定のための新規技術である「記号的予測」を採用し、敵対的インスタンスの生成を高速化する。
- 各ブースティングラウンドで、許容可能な摂動数(≤B個の特徴量変更)を満たす敵対的インスタンスを訓練データに追加することで、敵対的ブースティングを実装。
- 摂動が人間の目で識別できないようにするため、予算B=28(28×28画像の対角線長さ)を設定し、同時に回避の可能性を最大化。
- MILPソルバーの収束を向上させるために、高速な記号的予測の結果をウォームスタートとして使用。
- 1,000ラウンドのブースティングを繰り返し、敵対的増強データを用いて再訓練することで、硬化されたモデル(BDT-R)を訓練。
実験結果
リサーチクエスチョン
- RQ1ランダムフォレストや勾配ブースティング木などの木アンサンブルモデルは、敵対的摂動に対してどれほど脆弱であるか?
- RQ2さまざまなLpノルムの下で、木アンサンブル分類器を回避するために必要な最小摂動を体系的に計算できるか?
- RQ3非微分可能な木アンサンブルに対して、高速でスケーラブルな敵対的インスタンス生成手法を開発できるか?
- RQ4敵対的インスタンスを訓練データに追加することで、木アンサンブルの耐性が向上し、同時に精度が低下しないか?
- RQ5DNN、SVM、ロジスティック回帰などの他のモデルと比較して、木アンサンブルの耐性はどの程度か?
主な発見
- 勾配ブースティング木とランダムフォレストは、他のモデルと比較して著しく脆弱であり、L1またはL2ノルムで微小な摂動で誤分類が発生する。
- RBF-SVMモデルが最も高い耐性を示し、ディープニューラルネットワークでさえも、文字認識タスクにおいて優れた敵対的耐性を示した。
- 敵対的ブースティングにより、BDTモデル(BDT-R)が著しく硬化され、MILPを用いた最適な回避が極めて困難になった。6コアマシンで1日以上にわたって分枝限定法の探索が継続された。
- 硬化されたBDT-Rモデルは、元のBDTモデルよりもわずかに高いテスト精度を達成しており、硬化処理による精度の損失はなかった。
- L0ノルムの耐性は向上したが、L1、L2、L∞ノルムでは著しく性能が低下したため、異なる摂動タイプ間での耐性向上にはトレードオフが存在することが示された。
- 記号的予測に基づく回避アルゴリズムにより、1,100万件を超える合成敵対的インスタンスが生成され、大規模な敵対的訓練が可能になった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。