[論文レビュー] Fooling LIME and SHAP: Adversarial Attacks on Post hoc Explanation Methods
本論文は、LIMEやSHAPのような摂動ベースの事後説明が、現実データでは偏りを持ちつつ、摂動データ上では偏りがないように見せる「スカフォールド」型の敵対的分類器によって騙されうることを示しており、差別を事実上隠す効果がある。
As machine learning black boxes are increasingly being deployed in domains such as healthcare and criminal justice, there is growing emphasis on building tools and techniques for explaining these black boxes in an interpretable manner. Such explanations are being leveraged by domain experts to diagnose systematic errors and underlying biases of black boxes. In this paper, we demonstrate that post hoc explanations techniques that rely on input perturbations, such as LIME and SHAP, are not reliable. Specifically, we propose a novel scaffolding technique that effectively hides the biases of any given classifier by allowing an adversarial entity to craft an arbitrary desired explanation. Our approach can be used to scaffold any biased classifier in such a way that its predictions on the input data distribution still remain biased, but the post hoc explanations of the scaffolded classifier look innocuous. Using extensive evaluation with multiple real-world datasets (including COMPAS), we demonstrate how extremely biased (racist) classifiers crafted by our framework can easily fool popular explanation techniques such as LIME and SHAP into generating innocuous explanations which do not reflect the underlying biases.
研究の動機と目的
- 高リスク領域で用いられるブラックボックスモデルのバイアスを検出するための事後説明(LIMEとSHAP)の信頼性を動機づけ、評価する。
- 現実データのバイアスを保持しつつ、摂動入力下で偏りがないように見せる敵対的分類器(スカフォルディング)を構築するためのフレームワークを導入する。
- 実世界データセット(COMPAS、Communities and Crime、German credit)でフレームワークを評価し、説明が騙せることを示す。
- 説明に用いられる摂動スキームや背景分布に対する攻撃の頑健性を分析する。
提案手法
- LIMEとSHAPが局所的で摂動ベースの説明としてどのように機能するかを説明する。
- 現実データ分布X_dist上でfと一致するが、摂動/分布外のポイントでは偏りのないψを用いる敵対的分類器eを構築するフレームワークを提案する。
- 摂動点と分布内点を区別するOOD検出器is_OODを、Xとその摂動から作成したラベル付きデータセットを用いて訓練し、スカフォルドを誘導する。
- 説明を制御しつつX_dist上の偏った挙動を保持するよう、関連のない合成特徴を用いてψを構築する(必要に応じて既存の特徴も併用)。
- LIME/SHAPで用いられる摂動を悪用して、説明では人種や性別が重要でないように見せつつ、予測自体は偏っている状態を作り出せることを実証する。
- COMPAS、Communities & Crime、German Credit のデータセットを用いてLIMEとSHAPの攻撃を評価し、特徴量の重要度ランキングの変化を報告する。
実験結果
リサーチクエスチョン
- RQ1事後説明(LIMEとSHAP)を操作して、ブラックボックスモデルに潜在する差別的バイアスを隠すことはできるのか?
- RQ2敵対者は摂動ベースの説明をどう悪用して、摂動データでは無害に見える説明を、実データでの偏った挙動に忠実な説明へと変えることができるのか?
- RQ3このような攻撃の有効性と頑健性は、データセットや説明手法によってどう異なるのか?
主な発見
- 敵対的分類器はLIMEの説明を、COMPASとCommunities & Crimeでは敏感属性から非相関特徴量へ、German CreditではLoan%Incomeへと高忠実度で重要特徴を移動させることができる。
- SHAPの説明も欺けることがあり、多くのデータポイントで感度の高い特徴量が上位寄与度から外れるが、複数の特徴が競合する場合にはSHAPの局所的正確性が寄与度を分配できる。
- LIMEの説明はSHAPより脆弱である。SHAPは偏りを完全に隠すにはより正確なOOD検出器を要するが、合理的なOOD精度でも欺くことができる。
- この攻撃は、摂動データでは説明を無害に見せつつ、分布内データでの元の分類器の予測を保持する。
- LIMEに対するfidelity (e) はデータセットを跨いで100%である。SHAPはデータセットにより75-91%の忠実度を示し、強いがデータセット依存の成功を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。