Skip to main content
QUICK REVIEW

[論文レビュー] Benchmarking Attribution Methods with Relative Feature Importance

Mengjiao Yang, Been Kim|arXiv (Cornell University)|Jul 23, 2019
Explainable Artificial Intelligence (XAI)参考文献 30被引用数 86
ひとこと要約

本論文は BAM を導入します。既知の相対的特徴重要度を用いて特徴寄与推定手法を定量的に評価する半自然データセットとモデルを含む BAM というフレームワークを備え、偽陽性を検出する3つの指標を提案します。

ABSTRACT

Interpretability is an important area of research for safe deployment of machine learning systems. One particular type of interpretability method attributes model decisions to input features. Despite active development, quantitative evaluation of feature attribution methods remains difficult due to the lack of ground truth: we do not know which input features are in fact important to a model. In this work, we propose a framework for Benchmarking Attribution Methods (BAM) with a priori knowledge of relative feature importance. BAM includes 1) a carefully crafted dataset and models trained with known relative feature importance and 2) three complementary metrics to quantitatively evaluate attribution methods by comparing feature attributions between pairs of models and pairs of inputs. Our evaluation on several widely-used attribution methods suggests that certain methods are more likely to produce false positive explanations---features that are incorrectly attributed as more important to model prediction. We open source our dataset, models, and metrics.

研究の動機と目的

  • モデルと入力間の既知の相対的特徴重要度を用いて、寄与推定手法を評価する定量的なフレームワークを提供する。
  • 制御された相対的重要度を持つシーンにオブジェクトを貼り付けることで、半自然的な BAM データセットを作成する。
  • 寄与推定手法を評価し偽陽性を検出するための補完的な3つの指標(MCS、IDR、IIR)を開発する。

提案手法

  • MSCOCO のオブジェクトピクセルを MiniPlaces のシーン画像に貼り付けて BAM データセットを構築し、総計 100k 枚の画像で 10 個のオブジェクトクラスと 10 個のシーンクラスを作成する。
  • 共通特徴 (CF) とその共通性 k を定義して、モデル間および入力間の相対的特徴重要度を制御する。
  • 異なるラベル集合で2つの分類器 f_o と f_s を訓練し、モデル依存の特徴重要度(オブジェクト vs シーン)を確立する。
  • CF セット X_{o,s}^k 上でシーン分類器を訓練し、{0.1,...,1.0} の範囲の k にわたって CF の相対的重要度を変調し、CF 削除の影響を測定する。
  • BAM 条件下の寄与推定を比較するために、Model Contrast Score(MCS)、Input Dependence Rate(IDR)、Input Independence Rate(IIR)の3指標を提案する。
  • 領域平均寄与度 g_c、概念寄与度 G_c、および3つの指標を計算する式を提供する。

実験結果

リサーチクエスチョン

  • RQ1モデルと入力間の相対的特徴重要度が既知である場合、寄与推定手法は偽陽性の観点でどの程度健闘しているか?
  • RQ2BAM の下で特定の寄与推定手法が体系的に関連性の薄い特徴へ重要性を誤って割り当ててしまうのだろうか?
  • RQ3BAM 指標は特定のタスク要件(頑健性、低偽陽性など)に適した寄与推定手法の選択を導けるか?
  • RQ4CF の重要度がモデルと入力間で変化する場合、寄与推定手法の性能はどうなるか?
  • RQ5MCS と CF 削除への実際の頑健性との間に相関はあるか?

主な発見

  • いくつかの寄与推定手法は偽陽性を起こしやすく、より関連性の低い特徴の重要性を不正に高める。
  • GC および VG は真陽性の挙動が強い傾向にあり、TCAV は特定の設定で最も高いモデル対比スコアを示すことが多い。
  • MCS、IDR、IIR は補完的な洞察を提供し、指標によって手法の順位は異なるため、評価指標で求める基準次第で選択が分かれる。
  • VG(勾配ベース)は IDR および IIR でよく高い性能を示し、より複雑な摂動ベース手法が常に優れているという見方に挑戦する。
  • IIR は多くの手法が入力の機能的には無関係な摂動(例: 犬のようなデルタ)に高い重要性を割り当てることを明らかにし、特定の可視化手法を疑問視させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。