[論文レビュー] Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)
本論文は Concept Activation Vectors(CAVs)と Testing with CAVs(TCAV)を提案し、人が定義する概念がニューラルネットワークの予測にどの程度影響するかを統計的検証と複数の応用とともに定量化する。
The interpretation of deep learning models is a challenge due to their size, complexity, and often opaque internal state. In addition, many systems, such as image classifiers, operate on low-level features rather than high-level concepts. To address these challenges, we introduce Concept Activation Vectors (CAVs), which provide an interpretation of a neural net's internal state in terms of human-friendly concepts. The key idea is to view the high-dimensional internal state of a neural net as an aid, not an obstacle. We show how to use CAVs as part of a technique, Testing with CAVs (TCAV), that uses directional derivatives to quantify the degree to which a user-defined concept is important to a classification result--for example, how sensitive a prediction of "zebra" is to the presence of stripes. Using the domain of image classification as a testing ground, we describe how CAVs may be used to explore hypotheses and generate insights for a standard image classification network as well as a medical application.
研究の動機と目的
- 人間に解釈可能な概念を、モデルのトレーニングデータの外部である可能性のある例データの集合として定義する。
- これらの概念を表す活性化空間の方向として Concept Activation Vectors を学習する。
- 方向微分(TCAV スコア)を用いて、ある概念がクラス予測に及ぼす影響を定量化する。
- CAVs がモデル出力と意味のある関連があることを検証する統計的検定を提供する。
- グローバル(クラスレベル)の解釈性を実証し、医用画像タスクを含む実世界のシナリオへ適用する。
提案手法
- 任意のレイヤー l での活性化の正例セット P_C と負例セット N を収集して、ユーザーが指定した概念 C を定義する。
- P_C と N の活性化 f_l(x) を分離する線形分類器を訓練し、決定境界の法線を Concept Activation Vector v_C^l とする。
- 概念感度 S_{C,k,l}(x) を、v_C^l の方向へのクラスロジット h_{l,k} の方向微分として計算する、すなわち S_{C,k,l}(x) = ∇ h_{l,k}(f_l(x)) · v_C^l。
- クラス k のすべての入力 X_k に対して集約して TCAV スコアを形成する: TCAV_q_{C,k,l} = fraction of x in X_k with S_{C,k,l}(x) > 0。
- 多数のランダム化で CAV 学習を繰り返し、TCAV スコアを 0.5 と比較して有意性検定を行い、Bonferroni 補正を適用する。
- 任意で、概念 C と D を比較する相対的 CAVs に拡張し、1 次元部分空間を示すベクトル v_{C,D} を用いる。
実験結果
リサーチクエスチョン
- RQ1外部のトレーニングデータから学習された人間定義の概念を用いて、クラスレベルで NN の予測を説明・監査できるか?
- RQ2CAV は複数回の実行にわたり、モデル出力と安定した統計的に有意な関連を提供するか?
- RQ3ネットワークのどこで概念が学習され、層ごとに概念の影響はどのように変化するか?
- RQ4人間の解釈性と忠実度の観点で、TCAVベースの説明はサリエンシーに基づく説明とどう比較されるか?
- RQ5実世界のタスク(例:医用画像)に TCAV を適用して、モデルのバイアスやエラーを明らかにし、是正することができるか?
主な発見
- CAV は意図された概念と一致し、再訓練なしで人気のあるネットワークのバイアスを明らかにできる。
- TCAV スコアは出力層近くで高くなり、後半の層で概念が予測により直接的に影響していることを示唆している。
- 統計的検定は虚偽の概念連想を減らす。多くの CAV が有意性検定を通過する一方で、いくつかは通過しない、関連のない概念を除外する。
- サリエンシーマップと比較して、TCAV は人間の実験で概念の関連性をより良く伝え、制御された設定で真の概念使用と一致していた。
- 糖尿病性網膜症への適用では、TCAV は異なる DR レベルに関連する概念を強調し、モデルのエラーの解釈を支援した。
- Relative CAVs は密接に関連する概念間の細かな比較を可能にし、ニュアンスを含む解釈を支援する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。