QUICK REVIEW

[論文レビュー] What Do You See? Evaluation of Explainable Artificial Intelligence (XAI) Interpretability through Neural Backdoors

Yi‐Shan Lin, Wen‐Chuan Lee|arXiv (Cornell University)|Sep 22, 2020

Explainable Artificial Intelligence (XAI)参考文献 42被引用数 27

ひとこと要約

本稿では、神経的バックドアを真値として用いる、説明可能なAI（XAI）の解釈可能性を評価する新規で自動化されたフレームワークを提案する。トレーニング済みモデルにトリガーを埋め込むことで、LIME や GGCAM といったモデルに依存しないXAI手法が唯一、完全なトリガー領域を検出できることが実証された一方で、局所的説明手法は失敗し、XAIの耐性および信頼性に深刻な限界が生じることが明らかになった。

ABSTRACT

EXplainable AI (XAI) methods have been proposed to interpret how a deep neural network predicts inputs through model saliency explanations that highlight the parts of the inputs deemed important to arrive a decision at a specific target. However, it remains challenging to quantify correctness of their interpretability as current evaluation approaches either require subjective input from humans or incur high computation cost with automated evaluation. In this paper, we propose backdoor trigger patterns--hidden malicious functionalities that cause misclassification--to automate the evaluation of saliency explanations. Our key observation is that triggers provide ground truth for inputs to evaluate whether the regions identified by an XAI method are truly relevant to its output. Since backdoor triggers are the most important features that cause deliberate misclassification, a robust XAI method should reveal their presence at inference time. We introduce three complementary metrics for systematic evaluation of explanations that an XAI method generates and evaluate seven state-of-the-art model-free and model-specific posthoc methods through 36 models trojaned with specifically crafted triggers using color, shape, texture, location, and size. We discovered six methods that use local explanation and feature relevance fail to completely highlight trigger regions, and only a model-free approach can uncover the entire trigger region.

研究の動機と目的

主観的判断や高計算コストな手法に依存するため、XAIの解釈可能性に対する客観的で自動化された評価が不足しているという問題に対処すること。
特に、意図的な誤分類を引き起こすバックドアトリガーを検出できない既存のXAI手法の限界を特定すること。
多様なトリガーを備えたトレーニング済みモデルを真値として用い、salience説明の正しさを評価する体系的で自動化されたフレームワークを構築すること。
トリガーが目に見えにくくても効果的であるように設計された敵対的状況において、XAI手法の耐性および信頼性を評価すること。
現在のXAI手法、特に局所的説明および特徴の重要度に基づく手法が、完全なトリガー領域を強調できないことにより、モデルのデバッグにおける信頼性が損なわれることを示すこと。

提案手法

色、形状、テクスチャ、サイズ、位置の変化を用いて、36個のディープラーニングモデルに神経的バックドア（トリガー）を埋込み、制御されたテストケースを生成する。
トリガーの存在を真値として、XAI手法がモデルの予測に対して最も関連性の高い入力領域を正しく特定できるかを評価する。
説明の正確性および完全性を測定するための3つの定量的指標を導入：交差和集合（IOU）、重要度比（RR）、重要度距離（RD）。
すべてのトレーニング済みモデルに対して、最先端の7つのXAI手法（BP、GBP、GCAM、GGCAM、OCC、FA、LIME）を適用し、性能を比較する。
エッジ検出（Cannyアルゴリズム）を用いて局所的な重要領域を特定し、検出されたトリガー領域を囲むバウンディングボックスを描画して評価する。
さまざまなXAI手法およびモデルアーキテクチャにおける、salienceマップの生成に要する時間を測定することで、計算効率を評価する。

実験結果

リサーチクエスチョン

RQ1XAI手法は、入力画像に埋め込まれたバックドアトリガー（真値としての役割を果たす）を信頼性を持って検出できるか？
RQ2局所的説明に基づくXAI手法は、モデルに依存しないアプローチと比較して、完全なトリガー領域を同定できないのか？
RQ3トリガーの特徴（サイズ、色、位置、テクスチャ）の変化が、異なるXAI手法の性能にどのように影響するか？
RQ4トリガー検出において、フォワードベースとバックワードベースのXAI手法の間で、計算コストにどの程度の差があるか？
RQ5トリガーが部分的に覆い隠されたり、摂動を受けても、XAI手法はどの程度耐性を保つのか？

主な発見

7つのXAI手法のうち6つ（特に局所的説明および特徴の重要度に依存する手法）は、トリガーが視覚的に明確であっても、完全なトリガー領域を強調できない。
唯一、モデルに依存しない手法のLIMEとハイブリッド手法のGGCAMが、大多数のケースで完全なトリガー領域を検出に成功しており、LIMEは最高の重要度比（RR）スコアを達成した。
Occlusion（OCC）とFeature Ablation（FA）は、固定位置のトリガーでは優れた性能を示すが、ランダムに配置されたトリガーでは失敗する。
フォワードベースのXAI手法（OCC、FA、LIME）は、バックワードベースの手法（BP、GBP、GCAM、GGCAM）よりも著しく高い計算コストを要し、FAはVGG16で1枚のsalienceマップ作成に75秒以上を要する。
GGCAM手法は、GBPとGCAMの合計性能と同等の結果を達成しており、複数の手法からのsalienceマップの有効な統合が可能であることを示している。
トリガーのピクセルを元の画像の内容に置き換えた後も誤分類が継続するため、XAIに基づく入力のクリーニングによるバックドア防御は、トリガーの不完全な検出のため困難であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。