QUICK REVIEW

[논문 리뷰] Evaluating Saliency Map Explanations for Convolutional Neural Networks: A User Study

Ahmed Alqaraawi, Martin Schuessler|arXiv (Cornell University)|2020. 02. 03.

Explainable Artificial Intelligence (XAI)참고 문헌 44인용 수 30

한 줄 요약

본 연구는 CNN 이미지 분류를 위한 LRP 기반 주의 맵을 평가하고, 사용자가 중요한 특징을 학습하고 작업 정확도를 다소 개선하는 데 도움을 준 것으로 보이나(60.7% 대 55.1%), 새로운 이미지에서 출력을 예측하는 데에는 크게 도움이 되지 않는다는 것을 발견했다.

ABSTRACT

Convolutional neural networks (CNNs) offer great machine learning performance over a range of applications, but their operation is hard to interpret, even for experts. Various explanation algorithms have been proposed to address this issue, yet limited research effort has been reported concerning their user evaluation. In this paper, we report on an online between-group user study designed to evaluate the performance of "saliency maps" - a popular explanation algorithm for image classification applications of CNNs. Our results indicate that saliency maps produced by the LRP algorithm helped participants to learn about some specific image features the system is sensitive to. However, the maps seem to provide very limited help for participants to anticipate the network's output for new images. Drawing on our findings, we highlight implications for design and further research on explainable AI. In particular, we argue the HCI and AI communities should look beyond instance-level explanations.

연구 동기 및 목표

다중 라벨 이미지 분류에서 CNN 결정에 대한 평이 사용자와 전문가의 이해를 주의 맵이 개선하는지 평가한다.
설명( LRP 주의 맵)이 사용자의 새로운 이미지에서 CNN 출력 예측 능력에 영향을 미치는지 조사한다.
주의 맵과 함께 분류 점수를 포함하는 것이 사용자의 성능에 변화를 주는지 확인한다.
단일 예측을 넘어 인스턴스 수준의 설명을 평가함으로써 설명 가능한 AI에 대한 설계 시사점을 제공한다.

제안 방법

두 가지 요인 실험 설계의 온라인 그룹 간 사용자 연구.
참가자는 PASCAL VOC 보유 집합에서 14개의 작업 이미기에 대한 CNN 결과를 예측하고 시스템이 민감하게 반응하는 2–3가지 특징과 무시하는 2–3가지를 제시한다.
CNN 모델: PASCAL VOC 2012에서 미세조정된 VGG16, 학습/검증에서 AP 0.91, PASCAL VOC 2007 테스트에서 0.74.
알파-베타 전파(alpha=2, beta=1)를 사용한 Layer-wise Relevance Propagation(LRP)으로 주의 맵 생성.
두 독립 변수: 주의 맵의 유무(있음/없음)와 상위 10개 클래스 점수의 유무(있음/없음).
참가자에게 보여지는 예시 이미지는 작업 이미지와 임베딩 공간의 코사인 유사도로 선택되었으며, 결과는 TP, FN, FP로 다양하게 나타났다.

실험 결과

연구 질문

RQ1주요 맥락에서 주의 맵이 참가자의 새로운 이미지에서 CNN 출력을 예측하는 능력을 향상시키는가?
RQ2설명과 함께 분류 점수를 노출하는 것이 사용자 성능이나 신뢰에 영향을 미치는가?
RQ3참가자들은 CNN 결정에 대해 어떤 특징들을 언급하며, 주의 맵 유무에 따라 이는 어떻게 달라지는가?

주요 결과

참가자들은 주의 맵이 제시될 때 CNN 결과를 더 정확하게 예측했으며(60.7% 대 55.1%, p=0.045), 차이가 통계적으로 유의했다.
분류 점수는 예측 성능에 유의한 영향을 미치지 않았다.
전반적으로 작업 정확도는 상대적으로 낮은 편으로, 설명이 새로운 예측을 예측하는 데에 한정된 효용을 가진다는 것을 시사한다.
참가자들이 주의 맵이 있을 때 주의 맵-특징(Saliency-Features)을 더 많이 언급했으며(83.9% 대 54.6%), 맵이 주의 영역으로 주의를 이끌었음을 시사한다.
예측에 대한 신뢰도는 조건에 따라 달라지지 않았고 여전히 낮은 수준으로 남아 있었다.
주의 맵은 시스템이 민감하게 반응하는 일부 이미지 특징들에 대해 사용자의 학습을 돕는 데에는 기여했지만, 모델의 새로운 이미지 일반화에 대한 이해를 일관되게 높이지는 못했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.