[論文レビュー] On Completeness-aware Concept-Based Explanations in Deep Neural Networks
この論文は、DNNの概念ベースの説明に対する完備性スコアを定義し、解釈可能性正則化を用いた完備性意識の概念発見手法を導入し、概念SHAPを提案して概念の寄与度を定量化する。合成データ、画像データ(AwA)、テキストデータ(IMDB)でその手法を検証している。
Human explanations of high-level decisions are often expressed in terms of key concepts the decisions are based on. In this paper, we study such concept-based explainability for Deep Neural Networks (DNNs). First, we define the notion of completeness, which quantifies how sufficient a particular set of concepts is in explaining a model's prediction behavior based on the assumption that complete concept scores are sufficient statistics of the model prediction. Next, we propose a concept discovery method that aims to infer a complete set of concepts that are additionally encouraged to be interpretable, which addresses the limitations of existing methods on concept explanations. To define an importance score for each discovered concept, we adapt game-theoretic notions to aggregate over sets and propose ConceptSHAP. Via proposed metrics and user studies, on a synthetic dataset with apriori-known concept explanations, as well as on real-world image and language datasets, we validate the effectiveness of our method in finding concepts that are both complete in explaining the decisions and interpretable. (The code is released at https://github.com/chihkuanyeh/concept_exp)
研究の動機と目的
- DNNの概念ベースの説明に対する正式な完備性スコアを定義する。
- 自動的な発見を通じて完全で解釈可能な概念セットを開発する。
- 完備性の下で概念寄与を定量化するConceptSHAPを提案する。
- 概念の整合性と意味的妥当性を高めるよう発見を正規化する。
- 合成データと実世界の画像・言語データセットで有効性を実証する。
提案手法
- 入力xをパッチx_tとして表現し、潜在空間の概念ベクトルc_1,...,c_mに射影する。
- c_jとの閾値付き内積を用いて概念積v_c(x_t)を定義し、v_c(x)を形成するために正規化する。
- 完全な概念は予測の十分統計量をもたらすと仮定し、v_c(x)から活性化空間への写像gを学習し予測性を評価する。
- 解釈性の向上を目的として、概念近傍の局所性/一貫性と概念間多様性を促進する正規化項R(c)を提案する。
- SGDを用いて、概念と写像gを発見する共同目的関数log P[h_y(g(v_c(x)))] + R(c)を最適化する。
- ConceptSHAPを、完備性スコアへの各概念の寄与度をShapley値ベースで表す手法として定義し、多クラス設定のクラス別バリアントも含む。
実験結果
リサーチクエスチョン
- RQ1DNNの決定を説明する概念集合の十分性(完備性)をどのように定量化できるか。
- RQ2自動的に完全で解釈可能な概念セットを発見し、モデルの予測を共同で説明できるか。
- RQ3全体の完備性スコア(およびクラス別に)に対する各概念の重要性を、 principled に帰属づけるにはどうするべきか。
主な発見
- 提案された完備性スコアeta_f(c_1,...,c_m)は、概念スコアが完全モデルに対する予測をどれだけ再現するかを測定する。
- 完備性を意識した発見法は、合成データセットで正しい概念の取得と自動整合性の向上において、基準法(ACE, ACE-SP, PCA, k-means)を上回る。
- AwA(Animals with Attributes)および合成データで、方法は方法間で最高の完備性を達成する。
- ConceptSHAPは完備性スコアへの各概念の寄与度を提供し、Shapley公理(効率性、対称性、ダミー性、加法性)を支持する。
- クラス別ConceptSHAPバリアントは、特定のクラスに最も寄与する概念を識別し、クラス特有の解釈性を支援する。
- 人間と自動評価の両方で、発見された概念が画像および言語タスク(AwAとIMDB)において一貫性があり、解釈可能で意味的にも妥当であることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。