QUICK REVIEW

[논문 리뷰] Towards Quantification of Explainability in Explainable Artificial Intelligence Methods

Sheikh Rabiul Islam, William Eberle|arXiv (Cornell University)|2019. 11. 22.

Explainable Artificial Intelligence (XAI)참고 문헌 18인용 수 27

한 줄 요약

이 논문은 인지적 체계화, 상호작용 강도, 출력 구조를 측정하여 XAI에서 설명 가능성에 대한 모델 무관(proxy-based) 방법을 제안한다. 도메인 지식 기반 특성 구축(예: 신용의 5C)을 사용할 경우 원래 특성 대비 설명 가능성 점수를 60.14% 향상시키며, 성능 손실는 최소화하면서도 신용 리스크 예측과 같은 고위험 도메인에서 해석 가능성 향상이 가능하다.

ABSTRACT

Artificial Intelligence (AI) has become an integral part of domains such as security, finance, healthcare, medicine, and criminal justice. Explaining the decisions of AI systems in human terms is a key challenge--due to the high complexity of the model, as well as the potential implications on human interests, rights, and lives . While Explainable AI is an emerging field of research, there is no consensus on the definition, quantification, and formalization of explainability. In fact, the quantification of explainability is an open challenge. In our previous work, we incorporated domain knowledge for better explainability, however, we were unable to quantify the extent of explainability. In this work, we (1) briefly analyze the definitions of explainability from the perspective of different disciplines (e.g., psychology, social science), properties of explanation, explanation methods, and human-friendly explanations; and (2) propose and formulate an approach to quantify the extent of explainability. Our experimental result suggests a reasonable and model-agnostic way to quantify explainability

연구 동기 및 목표

설명 가능성에 대한 공감대 형성과 공식적 정량화의 부족을 해결하기 위해.
심리학, 사회과학, 인지과학 등 다학제적 관점에서 설명 가능성의 정의를 내리고 그 성질을 체계화하기 위해.
인간 평가가 필요 없이 인간 평가 없이도 설명 가능성의 정량화가 가능한 이식 가능하고 프록시 기반의 방법을 개발하기 위해.
실제 응용에서 도메인 지식 통합이 설명 가능성과 모델 성능 향상에 기여하는지 평가하기 위해.
다양한 모델 아키텍처와 특성 집합 간 XAI 방법을 비교할 수 있는 측정 가능한, 해석 가능한 메트릭을 제공하기 위해.

제안 방법

입력 체계화(Ni), 출력 체계화(No), 상호작용 강도(I)를 기반으로 설명 가능성(E)을 계산하는 공식(식 5)을 제안한다.
특성 상호작용의 부분적 의존도 분석을 통해 R의 iml 패키지를 사용해 상호작용 강도(I)를 계산한다.
인지적 체계화 이론을 적용: 더 적고 의미 있는 입력 및 출력 체계화는 해석 가능성 향상에 기여한다.
상관계수 가중 누적합을 사용해 원래 특성에서 도메인 특화 특성(예: 신용의 5C)을 구성함으로써 해석 가능성 향상.
세 가지 특성 설정(원래 특성, 도메인 연관 특성, 신규로 구성된 특성)을 비교하여 설명 가능성 점수 평가.
다양한 기계학습 모델(예: 랜덤 포레스트, 그래디언트 부스팅)에서 실증적으로 검증하기 위해 모기지 파산 예측 데이터셋을 사용한다.

실험 결과

연구 질문

RQ1심리학, 사회과학, 인지과학 등 다양한 분야에서 설명 가능성은 어떻게 공식적으로 정의되고 정량화될 수 있는가?
RQ2원시 특성 대비 도메인 지식 기반 특성 구축이 설명 가능성에 얼마나 기여하는가?
RQ3인간 평가나 실험 연구 없이도 프록시 기반 방법이 설명 가능성의 정량화를 가능하게 할 수 있는가?
RQ4도메인 지식 기반 특성 공학을 사용할 경우 설명 가능성과 모델 성능 간의 상호 교환 관계는 어떻게 되는가?
RQ5입력 및 출력 표현에서 인지적 체계화의 수가 인공지능 결정의 해석 가능성에 미치는 영향은 무엇인가?

주요 결과

신용의 5C 원칙에 기반한 새로 구성된 특성은 0.2723의 최고 설명 가능성 점수를 기록하여 원래 특성(0.1701) 대비 60.14% 향상되었다.
도메인 연관 특성은 0.2539의 설명 가능성 점수를 기록하여, 특성 재설계 없이도 도메인 지식 통합이 해석 가능성 향상에 기여함을 입증했다.
제안된 방법은 성능 저하 없이 높은 설명 가능성 점수를 달성했으며, 일부 모델(예: 랜덤 포레스트, 그래디언트 부스팅)은 희귀 타겟 클래스의 재현율이 향상되었다.
이 방법은 모델 무관이며, SHAP와 같은 사후 해석 도구와 같은 모든 XAI 방법에 적용 가능하다. 그러나 이러한 도구들은 원래 특성 공간에 국한되어 있어 0.1701의 설명 가능성 상한선을 초과할 수 없다.
상호작용 강도(I)는 설정 간 비교 시 상대적으로 안정된 편이었으며(0.52–0.56), 이는 설명 가능성 향상의 주요 원인이 특성 상호작용이 아니라 입력/출력 체계화의 구조적 단순화였음을 시사한다.
원래 특성과 도메인 기반 특성 간 성능 산란도(그림 2 및 3)는 극히 미미한 부정적 영향을 보였으며, 이는 실세계 적용 가능성에 대한 메서드의 타당성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.