[논문 리뷰] From Anecdotal Evidence to Quantitative Evaluation Methods: A Systematic Review on Evaluating Explainable AI
대규모 체계적 고찰로서 XAI 평가 관행을 다루고, 설명 품질에 대한 Co-12 특성을 도입하며 설명 가능 인공지능 방법을 벤치마크하기 위한 정량적 평가 방법을 수집했습니다.
The rising popularity of explainable artificial intelligence (XAI) to understand high-performing black boxes raised the question of how to evaluate explanations of machine learning (ML) models. While interpretability and explainability are often presented as a subjectively validated binary property, we consider it a multi-faceted concept. We identify 12 conceptual properties, such as Compactness and Correctness, that should be evaluated for comprehensively assessing the quality of an explanation. Our so-called Co-12 properties serve as categorization scheme for systematically reviewing the evaluation practices of more than 300 papers published in the last 7 years at major AI and ML conferences that introduce an XAI method. We find that 1 in 3 papers evaluate exclusively with anecdotal evidence, and 1 in 5 papers evaluate with users. This survey also contributes to the call for objective, quantifiable evaluation methods by presenting an extensive overview of quantitative XAI evaluation methods. Our systematic collection of evaluation methods provides researchers and practitioners with concrete tools to thoroughly validate, benchmark and compare new and existing XAI methods. The Co-12 categorization scheme and our identified evaluation methods open up opportunities to include quantitative metrics as optimization criteria during model training in order to optimize for accuracy and interpretability simultaneously.
연구 동기 및 목표
- 설명에 대한 객관적이고 정량적인 평가의 필요성을 사례에 의존한 증거를 넘어 제시한다.
- 종합적 평가를 위한 설명 품질 특성의 다면적 집합을 식별한다.
- 기존 평가 방법을 정량적 지표로 종합·분류한다.
- 벤치마킹 및 XAI 방법의 비교를 가능하게 하는 실용적이고 저장소 기반의 개요를 제공한다.
제안 방법
- DBLP 키워드 검색을 통해 12개 핵심 학회에서 606편의 논문(2014–2020)을 수집했다.
- 포함 기준을 적용하여 XAI 방법을 도입, 적용 또는 평가하는 361편의 논문을 식별했다.
- 평가 관행의 분석을 위한 XAI 방법을 도입한 312편의 논문으로 필터링했다.
- 내용, 제시, 사용자 차원에서의 설명 품질을 평가하기 위한 분류 체계로 Co-12 특성을 개발했다.
- Guidotti 등 계통에 따라 데이터 유형, 설명 유형, 문제 유형, 모델 유형, 작업 유형, 설명 방법의 여섯 차원으로 XAI 방법을 분류했다.
- 분류된 XAI 방법(312편)을 지원하기 위한 상호작용 웹사이트를 제공해 검색 및 벤치마킹을 촉진한다.
실험 결과
연구 질문
- RQ1XAI 연구에서 사례에 의존한 증거를 넘어 설명 가능성 및 해석 가능성이 어떻게 평가되는가?
- RQ2XAI에 존재하는 정량적 평가 방법은 무엇이며, 그것이 설명 품질 특성과 어떻게 매핑되는가?
- RQ3XAI 평가에서 사용자 연구의 보급은 얼마나 되며, 평가 관행의 추세는 무엇인가?
- RQ4설명 품질 지표를 모델 학습에 통합하여 정확도와 해석 가능성을 최적화할 수 있는가?
주요 결과
- 약 3분의 1 정도의 XAI 논문은 평가에 대해 사례에 의존하는 증거만을 사용한다.
- 약 5분의 1 정도의 XAI 논문은 평가에 사용자 연구를 포함한다.
- 특성 중요도(feature importance)가 방법 전반에서 가장 일반적인 설명 유형이다.
- 설명은 이진적이지 않고 다면적 특성으로 간주되며, Co-12 특성을 촉발한다.
- 정량적 XAI 평가 방법에 대한 포괄적 개요가 제공되어 방법의 강력한 벤치마킹 및 비교를 촉진한다.
- Co-12 특성은 체계적인 평가를 가능하게 하며, 설명 품질 지표를 학습 목표에 포함할 수 있는 기회를 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.