Skip to main content
QUICK REVIEW

[論文レビュー] Decoupling Pixel Flipping and Occlusion Strategy for Consistent XAI Benchmarks

Stefan Blücher, Johanna Vielhaben|arXiv (Cornell University)|Jan 12, 2024
Explainable Artificial Intelligence (XAI)被引用数 5
ひとこと要約

この論文は、 Reference-out-of-Model-Scope (R-OMS) スコアを導入して XAI における遮蔽戦略を評価し、 symmetric relevance gain (SRG) を用いて MIF と LIF を組み合わせ、40 の設定を通じて一貫したピクセル反転ベンチマークを得る。

ABSTRACT

Feature removal is a central building block for eXplainable AI (XAI), both for occlusion-based explanations (Shapley values) as well as their evaluation (pixel flipping, PF). However, occlusion strategies can vary significantly from simple mean replacement up to inpainting with state-of-the-art diffusion models. This ambiguity limits the usefulness of occlusion-based approaches. For example, PF benchmarks lead to contradicting rankings. This is amplified by competing PF measures: Features are either removed starting with most influential first (MIF) or least influential first (LIF). This study proposes two complementary perspectives to resolve this disagreement problem. Firstly, we address the common criticism of occlusion-based XAI, that artificial samples lead to unreliable model evaluations. We propose to measure the reliability by the R(eference)-Out-of-Model-Scope (OMS) score. The R-OMS score enables a systematic comparison of occlusion strategies and resolves the disagreement problem by grouping consistent PF rankings. Secondly, we show that the insightfulness of MIF and LIF is conversely dependent on the R-OMS score. To leverage this, we combine the MIF and LIF measures into the symmetric relevance gain (SRG) measure. This breaks the inherent connection to the underlying occlusion strategy and leads to consistent rankings. This resolves the disagreement problem, which we verify for a set of 40 different occlusion strategies.

研究の動機と目的

  • 遮蔽ベースの XAI の説明と評価(ピクセル反転)における不一致問題に対処する。
  • 遮蔽サンプルの信頼性を定量的に評価するモデル認識スコア R-OMS の開発。
  • 遮蔽設計の選択肢(imputer, superpixel, model)が PF ベンチマークへ与える影響を分析。
  • MIF と LIF を戦略に依存しないランク付け指標へ統合する SRG を提案する。
  • 複数の遮蔽戦略とモデルタイプに跨ってアプローチを検証する。

提案手法

  • 平均、訓練集合、ヒストグラム、cv2、拡散など多様な複雑さの imputers を用いた遮蔽評価フレームワークを定義。
  • Reference-out-of-model-scope (R-OMS) スコアを、参照サンプルの元のクラス予測に基づいて導入。
  • Rectangular, SLIC, SAM など異なる superpixel スキームと、モデルアーキテクチャ(ResNet50, timm-ResNet50, ViT)を横断して遮蔽サンプルを評価。
  • 遮蔽戦略の選択と PF ベンチマークが link され、R-OMS がランク安定性を説明することを示す。
  • 対称的関連度ゲイン(SRG)を SRG[φ] = LRG[φ] + MRG[φ] と定義し、ランキングを遮蔽戦略から分離する。
  • 40 の PF セットアップと 100 ImageNet サンプルにわたる経験的結果を提供して XAI 手法を比較。

実験結果

リサーチクエスチョン

  • RQ1遮蔽戦略の設計選択(imputer、superpixel の形状/数、モデルタイプ)が PF ベンチマークと手法ランキングにどのような影響を与えるか。
  • RQ2R-OMS スコアは XAI 手法や遮蔽戦略を横断して遮蔽サンプルの信頼性を信頼性高く特徴づけられるか。
  • RQ3SRG 指標は多様な遮蔽戦略にわたって一貫した XAI 手法のランキングを生み出すか。
  • RQ4MIF/LIF ベースの PF ベンチマークにおける一貫性・不一致の主な要因は何か。
  • RQ5SRG ベースのランキングは複数の PF セットアップを集約しても安定性を保つか。

主な発見

  • Diffusion imputers は一貫して高い R-OMS スコアを生み出し、train-set imputers は低い R-OMS を生み出すだけでなくモデル予測を誤導する可能性がある。
  • R-OMS は PF の結果と相関し、高い R-OMS は MIF/LIF のランキングの一貫性を高める;NR-OMS は情報量が少ない。
  • MIF のランキングは大きな R-OMS で最も一貫性があり、LIF は中〜低 R-OMS での一貫性を示す; SRG は両方を組み合わせて安定したランキングを提供する。
  • SRG のランキングは遮蔽戦略に対してほぼ独立しており、40 セットアップの異なるランキングの数を約7個程度に減らし、解釈性を向上させる。
  • 超ピクセル数は PF ランキングの強い予測因子であり、意味的 SAM の superpixels は imputers を跨いで R-OMS を増加させ、imputer の感度を低減する。
  • SRG は PF セットアップ間での定量的安定性(分散の低さ)を MRG/LRG より高く示す(例: Var(LRP) SRG = 0.0005 vs. 0.0110 および 0.0128 for MRG/LRG)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。