QUICK REVIEW

[논문 리뷰] Reliable Post hoc Explanations: Modeling Uncertainty in Explainability

Dylan Slack, Sophie Hilgard|arXiv (Cornell University)|2020. 08. 11.

Explainable Artificial Intelligence (XAI)참고 문헌 57인용 수 23

한 줄 요약

이 논문은 신뢰구간을 통해 특성 중요도의 불확실성을 정량화하는 신뢰구간을 제공하는 베이지안 프레임워크인 BayesLIME와 BayesSHAP을 제안한다. 불확실성을 모델링함으로써, 이론적 보장과 초모수 선택 및 수렴에 대한 이론적 근거를 바탕으로 안정적이고 신뢰할 수 있으며 계산적으로 효율적인 설명을 보장한다.

ABSTRACT

As black box explanations are increasingly being employed to establish model credibility in high-stakes settings, it is important to ensure that these explanations are accurate and reliable. However, prior work demonstrates that explanations generated by state-of-the-art techniques are inconsistent, unstable, and provide very little insight into their correctness and reliability. In addition, these methods are also computationally inefficient, and require significant hyper-parameter tuning. In this paper, we address the aforementioned challenges by developing a novel Bayesian framework for generating local explanations along with their associated uncertainty. We instantiate this framework to obtain Bayesian versions of LIME and KernelSHAP which output credible intervals for the feature importances, capturing the associated uncertainty. The resulting explanations not only enable us to make concrete inferences about their quality (e.g., there is a 95% chance that the feature importance lies within the given range), but are also highly consistent and stable. We carry out a detailed theoretical analysis that leverages the aforementioned uncertainty to estimate how many perturbations to sample, and how to sample for faster convergence. This work makes the first attempt at addressing several critical issues with popular explanation methods in one shot, thereby generating consistent, stable, and reliable explanations with guarantees in a computationally efficient manner. Experimental evaluation with multiple real world datasets and user studies demonstrate that the efficacy of the proposed framework.

연구 동기 및 목표

기존의 후행 해석 방법(LIME 및 SHAP 등)이 런타임이나 소규모 입력 변형에 따라 해석 결과가 달라지는 불안정성과 일관성 부족 문제를 해결한다.
특성 중요도의 사후분포를 모델링함으로써 신뢰할 수 있고 불확실성 인식형 해석을 제공하며, 해석 품질에 대한 구체적인 추론이 가능하게 한다.
사후분포에 대한 닫힌 형태의 표현식을 유도하고 집중 샘플링 전략을 도입하여 수렴 속도를 향상시킴으로써 계산 비용을 감소시킨다.
불확실성 추정을 기반으로 한 이론적 분석을 통해 주요 초모수(예: 편향 수) 선택에 대한 지침을 제공하여 원하는 신뢰수준을 달성할 수 있도록 한다.
최종 사용자가 지정한 신뢰수준(예: 95퍼센트 신뢰구간)을 갖는 해석을 요청할 수 있도록 한다.

제안 방법

국소적 해석 계수를 확률 변수로 간주하고 사후분포를 가짐으로써 불확실성 정량화가 가능한 베이지안 프레임워크를 개발한다.
LIME 및 KernelSHAP에 대해 닫힌 형태의 사후분포를 유도함으로써 MCMC나 샘플링 기반 추론이 필요 없도록 하여 계산 효율성을 확보한다.
이 프레임워크를 구현하여 BayesLIME 및 BayesSHAP를 도입하며, 이는 특성 중요도의 점추정치와 함께 신뢰구간을 출력한다.
불확실성이 높은 영역을 우선적으로 샘플링하는 새로운 샘플링 전략인 집중 샘플링을 제안한다. 이는 수렴 속도를 가속화한다.
신뢰구간을 활용하여 원하는 신뢰수준을 달성하기 위해 필요한 편향 수의 닫힌 형태 표현식을 유도한다.
불확실성 측정치를 초모수 선택에 통합함으로써, 사용자가 지정한 신뢰수준을 충족하는 해석을 보장한다.

실험 결과

연구 질문

RQ1국소적 해석에 대한 불확실성을 모델링하면, 여러 런타임에 걸쳐 해석의 안정성과 일관성이 향상되는가?
RQ2특성 중요도에 대한 신뢰구간은 신뢰할 수 있고 해석 가능한 해석 품질 및 신뢰성 측정치를 제공하는가?
RQ3불확실성 추정을 기반으로 한 이론적 분석은 편향 수와 같은 핵심 초모수 선택을 안내할 수 있는가?
RQ4불확실성 인식형 샘플링 전략은 해석 생성의 계산 효율성을 향상시키는가?
RQ5불확실성 인식형 해석은 고위험 분야에서 사용자 신뢰도 및 의사결정 과정을 어느 정도 향상시키는가?

주요 결과

BayesLIME와 BayesSHAP는 사용자가 특성 중요도 추정의 신뢰도를 정량화할 수 있도록 신뢰구간을 제공한다. 예를 들어, 진정한 중요도가 주어진 범위 내에 있을 확률이 95퍼센트임을 서술할 수 있다.
이 프레임워크는 높은 일관성과 안정성을 보장한다. 표준 LIME와 달리, 소규모 입력 변형이나 다른 런타임에서도 해석 결과가 크게 변하지 않는다.
이론적 분석을 통해 원하는 신뢰수준을 달성하기 위해 필요한 편향 수의 닫힌 형태 추정이 가능해지며, 히ュ리스틱 튜닝에 대한 의존도가 감소한다.
불확실성이 높은 영역을 우선적으로 샘플링하는 집중 샘플링 전략은 수렴 속도를 가속화하고 안정적인 해석을 얻기 위해 필요한 블랙박스 쿼리 수를 감소시킨다.
COMPAS, 독일 신용, MNIST, ImageNet 등의 데이터셋에서의 사용자 연구 및 평가 결과, 제안된 방법이 기준 방법보다 더 신뢰할 수 있고 신뢰도가 높은 해석을 생성한다는 것이 확인되었다.
닫힌 형태의 사후분포 덕분에 반복적 샘플링이나 MCMC를 피함으로써 계산 효율성을 유지하면서도 여전히 불확실성 정량화를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.