[논문 리뷰] The effectiveness of feature attribution methods and its correlation with automatic evaluation scores
이 연구는 피처 어트리뷰션 맵(GradCAM, EP, SOD)과 nearest-neighbor 설명이 ImageNet 및 Stanford Dogs에서 인간-AI 팀의 성능에 미치는 영향을 평가하고, adversarial 사례를 포함하며, 자동 어트리뷰션 지표와 실제 인간 성능 간의 약한 상관관계를 드러낸다.
Explaining the decisions of an Artificial Intelligence (AI) model is increasingly critical in many real-world, high-stake applications. Hundreds of papers have either proposed new feature attribution methods, discussed or harnessed these tools in their work. However, despite humans being the target end-users, most attribution methods were only evaluated on proxy automatic-evaluation metrics (Zhang et al. 2018; Zhou et al. 2016; Petsiuk et al. 2018). In this paper, we conduct the first user study to measure attribution map effectiveness in assisting humans in ImageNet classification and Stanford Dogs fine-grained classification, and when an image is natural or adversarial (i.e., contains adversarial perturbations). Overall, feature attribution is surprisingly not more effective than showing humans nearest training-set examples. On a harder task of fine-grained dog categorization, presenting attribution maps to humans does not help, but instead hurts the performance of human-AI teams compared to AI alone. Importantly, we found automatic attribution-map evaluation measures to correlate poorly with the actual human-AI team performance. Our findings encourage the community to rigorously test their methods on the downstream human-in-the-loop applications and to rethink the existing evaluation metrics.
연구 동기 및 목표
- 어트리뷰션 맵이 인간-AI 팀 환경에서 인간의 이미지 분류 정확도를 개선하는지 평가한다.
- ImageNet와 Stanford Dogs 전역에서 어트리뷰션 기반 설명을 기본 설명과 nearest-neighbor 프로토타입과 비교한다.
- 실제 이미지와 adversarial 이미지에서 인간-AI 성능을 평가하여 설명의 강건성을 이해한다.
- 일반적인 자동 어트리뷰션 지표(Pointing Game, IoU, WSL)와 실제 인간-AI 성능 간의 상관관계를 조사한다.
- 일반 사용자와 ML 전문가 간에 어트리뷰션 맵과 nearest-neighbor 설명의 유용성을 비교한다.
제안 방법
- 설명 확인 후 AI의 top-1 라벨이 올바른지 판단하기 위해 일반 참가자와 ML 전문가를 대상으로 대규모 사용자 연구를 수행한다.
- ImageNet과 Stanford Dogs에 대해 예측 및 설명을 생성하기 위해 ImageNet에서 사전 학습된 ResNet-34를 분류기로 사용한다.
- AI-단독, 신뢰도, GradCAM, Extremal Perturbation (EP), Salient Object Detection (SOD), 그리고 3-NN 프로토타입의 여섯 가지 조건을 비교한다.
- 설명의 강건성을 테스트하기 위해 실제 이미지, 오분류된 이미지, 그리고 adversarial 이미지를 포함한다.
- Pointing Game, IoU, 및 weakly-supervised localization (WSL)을 인간 판단과 대조하여 어트리뷰션 맵을 평가한다.
- 예측된 클래스에서 상위 3개 트레이닝 세트 예제를 사용하는 3-NN을 프로토타입 기반 설명으로 사용한다.
- 두 데이터 세트에 걸쳐 320명의 참가자(161 ImageNet 및 159 Dogs 자격 제출 포함)를 모집한다.
실험 결과
연구 질문
- RQ1GradCAM, EP, SOD와 같은 어트리뷰션 맵이 기본선 대비 ImageNet 및 Stanford Dogs에서 인간-AI 팀의 정확도를 향상시키는가?
- RQ23-NN 설명이 자연 이미지와 adversarial 이미지에서 어트리뷰션 맵의 도움과 비교해 인간의 의사결정을 얼마나 돕는가?
- RQ3자동 어트리뷰션 평가 지표(Pointing Game, IoU, WSL)가 실제 인간-AI 팀 성능을 예측하는가?
- RQ4어트리뷰션 맵이나 3-NN 설명을 사용할 때 일반 사용자와 ML 전문가의 결과 차이가 있는가?
- RQ5설명이 더 어려운 세분화 작업(Stanford Dogs)과 넓은 1000클래스 데이터셋(ImageNet) 간에 영향이 다르게 나타나는가?
주요 결과
- 3-NN 설명이 일반 사용자에서 ImageNet 및 Stanford Dogs 전반에 걸쳐 어트리뷰션 맵보다 우수하게 작동한다.
- ImageNet에서 heatmap과 신뢰도 점수는 인간-AI 팀의 정확도 향상을 6–8% 정도 가져오지만, 이 이득의 절반 정도만이 heatmaps 자체에 의한 것일 뿐이다.
- Stanford Dogs에서 3-NN과 heatmap 모두가 AI 단독 대비 인간-AI 팀 정확도에 악영향을 주는 경향을 보인다.
- 적대적 이미지에서 신뢰도 점수만으로도 도움이 되며, 3-NN은 단독 신뢰도 대비 약 4%의 일관된 이득을 제공한다.
- 자동 어트리뷰션 지표(Pointing Game, IoU, WSL)는 실제 인간-AI 팀 성능과 상관관계가 낮으며, ImageNet에서 GradCAM에 대해 소수의 양의 상관관계만 있다(IoU r=0.22, WSL r=0.15, Pointing Game r=0.21).
- ML 전문가가 3-NN을 사용할 때 GradCAM을 사용하는 경우보다 훨씬 우수한 성능을 보인다(평균 정확도 76.67% 대 68.00%).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.