[논문 리뷰] Explain Any Concept: Segment Anything Meets Concept-Based Explanation
EAC는 SAM 기반 컨셉 발견과 가벼운 PIE 대리자 및 샤플리 값을 결합하여 임의의 컨셉으로 DNN 의 의사결정을 설명하며, ImageNet 및 COCO에서 baselines 대비 더 높은 충실도와 이해가능성을 달성합니다.
EXplainable AI (XAI) is an essential topic to improve human understanding of deep neural networks (DNNs) given their black-box internals. For computer vision tasks, mainstream pixel-based XAI methods explain DNN decisions by identifying important pixels, and emerging concept-based XAI explore forming explanations with concepts (e.g., a head in an image). However, pixels are generally hard to interpret and sensitive to the imprecision of XAI methods, whereas "concepts" in prior works require human annotation or are limited to pre-defined concept sets. On the other hand, driven by large-scale pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promotable framework for performing precise and comprehensive instance segmentation, enabling automatic preparation of concept sets from a given image. This paper for the first time explores using SAM to augment concept-based XAI. We offer an effective and flexible concept-based explanation method, namely Explain Any Concept (EAC), which explains DNN decisions with any concept. While SAM is highly effective and offers an "out-of-the-box" instance segmentation, it is costly when being integrated into defacto XAI pipelines. We thus propose a lightweight per-input equivalent (PIE) scheme, enabling efficient explanation with a surrogate model. Our evaluation over two popular datasets (ImageNet and COCO) illustrate the highly encouraging performance of EAC over commonly-used XAI methods.
연구 동기 및 목표
- 비전 모델에 대한 컨셉 기반 설명에서 충실도, 이해가능성, 효율성을 다루어 열린(Open)하고 해석 가능한 AI를 고취시킨다.
- Segment Anything Model (SAM)을 활용해 이미지에서 인간이 이해할 수 있는 컨셉을 자동으로 추출한다.
- 효율적인 샤플리 값 기반 설명을 가능하게 하는 경량의 입력별 등가물(PIE) 대리자를 개발한다.
- 어떤 컨셉으로도 예측을 설명하는 일반적인 파이프라인(EAC)을 제공하고 그 효과를 평가한다.
제안 방법
- 각 입력 이미지에서 SAM을 사용해 일련의 컨셉 C를 생성한다.
- 주어진 입력에 대해 대상 모델을 근사하도록 대상 모델의 FC 계층을 공유하는 PIE 대리자를 학습시켜 샤플리 값 계산의 효율성을 확보한다.
- 몬테카를로 샘플링을 사용해 대상 예측에 가장 큰 기여를 하는 컨셋들을 식별하기 위해 컨셉 수준의 샤플리 값을 계산한다.
- 샤플리 값 기반 유용성을 최대화하는 컨셉의 하위집합으로 설명을 형성하고 선택된 컨셉을 강조한 마스크 처리된 이미지를 제시한다.
- ImageNet와 COCO에서 삽입/삭제 AUC 지표를 사용해 충실도 측면에서 EAC를 다수의 베이스라인(pixel-, superpixel-, 컨셑 기반)과 비교한다.
- 설명의 이해가능성을 평가하기 위한 인간 평가를 수행하고 PIE의 효율성과 충실도를 검증하기 위한 제거 연구를 수행한다.
실험 결과
연구 질문
- RQ1SAM에서 파생된 컨셉이 비전 태스크에서 DNN 의사결정에 대해 충실하고 이해가능한 설명을 제공할 수 있는가?
- RQ2PIE 대리자가 컨셉 기반 설명에 대한 효율적이고 정확한 샤플리 값 계산을 가능하게 하는가?
- RQ3표준 벤치마크와 인간 판단에서 EAC가 기존의 픽셀-, 슈퍼픽셀-, 컨셷 기반 XAI 방법들과 어떻게 비교되는가?
주요 결과
| 설정 | EAC | DeepLIFT | GradSHAP | IntGrad | KernelSHAP | 특성제거 | LIME | DeepLIFT* | GradSHAP* | IntGrad* |
|---|---|---|---|---|---|---|---|---|---|---|
| ImageNet/삽입 | 83.400 | 75.235 | 64.658 | 68.772 | 64.544 | 70.187 | 76.638 | 14.707 | 14.794 | 15.120 |
| COCO/삽입 | 83.404 | 78.199 | 61.109 | 65.037 | 54.570 | 72.260 | 79.028 | 8.580 | 21.643 | 19.755 |
| ImageNet/삭제 | 23.799 | 25.262 | 40.996 | 36.214 | 26.583 | 37.332 | 25.307 | 40.620 | 44.830 | 46.015 |
| COCO/삭제 | 16.640 | 17.026 | 34.038 | 30.074 | 20.054 | 26.535 | 17.337 | 49.697 | 35.302 | 38.148 |
- EAC는 ImageNet에서 삽입 AUC가 baselines보다 높게(83.400 대 75.235), COCO에서도(83.404 대 78.199) 더 우수하다.
- 보고된 설정에서 ImageNet의 삭제 AUC(23.799)와 COCO의 삭제 AUC(16.640)에서도 baselines를 상회한다.
- 인간 평가에서 200개 이미지 중 184개(92.0%)에서 EAC가 모든 베이스라인보다 선호되었고, 그 중 184건 중 137건(74.5%)에서 EAC가 선호된다.
- PIE는 계산 시간을 크게 줄이고 높은 AUC를 유지한다(이미지넷 삽입: PIE 81.78, 245초 vs 원본 >24시간; COCO 삽입: PIE 87.08, 252초).
- 특성 제거 실험은 PIE가 선형 대리자보다 성능이 우수함을 보여주고, 매개변수 공유 없는 PIE는 성능이 저하되어 PIE 설계의 중요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.