[論文レビュー] Evaluating Saliency Map Explanations for Convolutional Neural Networks: A User Study
この研究はCNN画像分類のためのLRPベースのサリエンシマップを評価し、顕著な特徴を学習しタスク精度をわずかに改善するのにユーザーを助ける一方で、新しい画像の出力を予測することには実質的には役立たない(60.7%対55.1%)。
Convolutional neural networks (CNNs) offer great machine learning performance over a range of applications, but their operation is hard to interpret, even for experts. Various explanation algorithms have been proposed to address this issue, yet limited research effort has been reported concerning their user evaluation. In this paper, we report on an online between-group user study designed to evaluate the performance of "saliency maps" - a popular explanation algorithm for image classification applications of CNNs. Our results indicate that saliency maps produced by the LRP algorithm helped participants to learn about some specific image features the system is sensitive to. However, the maps seem to provide very limited help for participants to anticipate the network's output for new images. Drawing on our findings, we highlight implications for design and further research on explainable AI. In particular, we argue the HCI and AI communities should look beyond instance-level explanations.
研究の動機と目的
- 多ラベル画像分類におけるCNNの判断に関して、サリエンシーマップが非専門家および専門家の理解を向上させるかを評価する。
- 視覚的説明(LRPサリエンシーマップ) が新しい画像でのCNN出力を予測する能力に影響するかを調査する。
- サリエンシーマップとともに分類スコアを含めることがユーザーの性能を変えるかを検討する。
- 単一の予測を超えるインスタンスレベルの説明を評価することによって、説明可能なAIの設計への示唆を提供する。
提案手法
- 2×2因子設計のオンライン・グループ間ユーザースタディ。
- 参加者はPASCAL VOCのホールドアウトセットからの14のタスク画像についてCNNの出力を予測し、システムが敏感である2–3の特徴と無視する2–3の特徴を挙げる。
- CNNモデル: PASCAL VOC 2012でファインチューニングしたVGG16、訓練/検証でAP 0.91、PASCAL VOC 2007テストで0.74。
- Layer-wise Relevance Propagation (LRP) によるアルファ-ベータ伝搬を用いたサリエンシーマップを生成(alpha=2, beta=1)。
- 2つの独立変数: サリエンシーマップの有無(あり/なし)と上位10クラススコアの有無(あり/なし)。
- 課題画像と埋め込み空間でのコサイン類似度に基づいて選択された課題画像の例画像を参加者に提示し、結果はTP、FN、FPの varied な組み合わせを示した。
実験結果
リサーチクエスチョン
- RQ1サリエンシーマップは参加者が新しい画像でCNNの出力を予測する能力を向上させるか。
- RQ2説明とともに分類スコアを開示することが、ユーザーの性能や信頼に影響を与えるか。
- RQ3ユーザーがCNNの判断を説明する際にどのような特徴を挙げるか、そしてそれがサリエンシーマップの有無にどのように依存するか。
主な発見
- サリエンシーマップが表示された場合、CNNの出力を予測する精度が高くなった(60.7%対55.1%、p=0.045)。
- 分類スコアは予測性能に有意な影響を与えなかった。
- 全体的なタスク精度は相対的に低いままで、新しい予測を予測するための説明の有用性は限定的であることを示している。
- サリエンシーマップがある場合、Saliency-Featuresを挙げる参加者が多かった(83.9%対54.6%)、マップが強調領域への注意を導いていることを示している。
- 予測の信頼度は条件間で差がなく、低いままだった。
- サリエンシーマップはシステムが敏感な一部の画像特徴について学ぶのに役立ったが、モデルが新しい画像へ一般化する理解を一貫して改善するには至らなかった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。