QUICK REVIEW

[논문 리뷰] Post hoc Explanations may be Ineffective for Detecting Unknown Spurious Correlation

Julius Adebayo, Michael Muelly|arXiv (Cornell University)|2022. 12. 09.

Explainable Artificial Intelligence (XAI)인용 수 25

한 줄 요약

본 논문은 사후 설명(특징 기여도, 개념 활성화, 학습 포인트 순위)가 모델의 알려지지 않은 잘못된 상관관계를 탐지할 수 있는지 평가하고, 비가시적인 잘못된 신호에 대해서는 효과가 없는 경우가 많다는 결론을 제시한다; 가시적이고 미리 알려진 잘못된 신호일 때에만 일부 방법이 도움이 된다.

ABSTRACT

We investigate whether three types of post hoc model explanations--feature attribution, concept activation, and training point ranking--are effective for detecting a model's reliance on spurious signals in the training data. Specifically, we consider the scenario where the spurious signal to be detected is unknown, at test-time, to the user of the explanation method. We design an empirical methodology that uses semi-synthetic datasets along with pre-specified spurious artifacts to obtain models that verifiably rely on these spurious training signals. We then provide a suite of metrics that assess an explanation method's reliability for spurious signal detection under various conditions. We find that the post hoc explanation methods tested are ineffective when the spurious artifact is unknown at test-time especially for non-visible artifacts like a background blur. Further, we find that feature attribution methods are susceptible to erroneously indicating dependence on spurious signals even when the model being explained does not rely on spurious artifacts. This finding casts doubt on the utility of these approaches, in the hands of a practitioner, for detecting a model's reliance on spurious signals.

연구 동기 및 목표

고위험 영역에서 사용되는 DNN에서 잘못된 신호를 탐지할 필요성을 제시한다.
이미 알려진 잘못된 신호를 주입하고 해설을 평가하는 엔드투엔드 실험 방법론을 개발한다.
알려진 신호와 알려지지 않은 신호 하에서 세 가지 설명 패러다임의 신뢰도를 정량화한다.
실무자를 위한 실무성 평가를 위한 휴먼-인-루프 연구를 수행한다.
가시적인 잘못된 신호를 탐지하기 위해 설명이 신뢰할 수 있을 때와 방법에 대한 가이드를 제공한다.

제안 방법

사전에 지정된 잘못된 인공 요소를 가진 준합성 데이터셋을 생성하여 모델이 잘못된 신호에 의존하도록 한다.
모델의 잘못된 신호 의존도를 정량화하기 위한 Spurious Score를 정의한다.
세 가지 신뢰도 지표를 개발한다: Known Spurious Signal Detection Measure (K-SSD), Cause-for-Concern Measure (CCM), 그리고 False Alarm Measure (FAM).
다중 작업과 아키텍처에 걸쳐 세 가지 사후 설명 유형—특징 기여도, 개념 활성화(TCAV), 학습 포인트 순위(영향 함수)—를 평가한다.
사람을 대상으로 200명의 참가자를 대상으로 맹검 사용자 연구를 수행하여 잘못된 의존성의 실제 식별 가능성을 평가한다.
특징 기여도에는 SSIM을, 개념 활성화와 학습 포인트 순위 비교에는 KS 검정을 사용한다.

실험 결과

연구 질문

RQ1사후 설명이 테스트 시간에 모델이 알려지지 않은 잘못된 학습 신호에 의존하는지를 탐지할 수 있는가?
RQ2특징 기여도, 개념 활성화, 학습 포인트 순위가 가시적인 잘못된 신호를 탐지하는 데 효과적인가?
RQ3잘못된 신호의 가시성(가시적 vs 비가시적) 조건에 따라 이들 설명의 성능은 어떻게 달라지는가?
RQ4실무자들이 잠재적 잘못 신호를 사전에 알리지 않은 상황에서 설명을 사용해 신뢰할 수 있게 결함 모델을 식별할 수 있는가?
RQ5설명을 효과적으로 사용해 잘못된 상관관계를 탐지하기 위한 실무자용 가이드는 무엇인가?

주요 결과

사후 설명은 신호가 미리 알려진 경우 가시적인 잘못된 신호에 대한 의존성을 식별할 수 있지만, 배경 흐림과 같은 비가시적 신호에는 효과가 감소한다.
특징 기여도 방법은 높은 오경보 위험을 보여 주며, 모델이 잘못된 신호에 의존하지 않아도 잘못된 신호에 의존할 수 있음을 시사한다.
개념 활성화(TCAV)는 알려진 가시적 신호를 탐지할 수 있지만 비가시적 신호에는 어려움을 겪고, 신호가 알려지지 않은 경우 신뢰성이 제한적이다.
학습 포인트 순위(영향 함수)는 신호가 알려졌을 때만 잘못된 모델에 대해 상위 잘못된 입력 비율을 증가시키며, 사전 지식 없이서는 환상적인 신뢰감을 시사한다.
블라인드 사용자 연구는 잘못된 신호에 대한 사전 지식이 없으면 어느 설명 방법도 사용자가 결함 있는 모델을 신뢰할 수 있게 탐지하는 데 도움을 주지 않는다는 것을 보여주고, 사전 지식이 있을 때는 TCAV가 가시적 신호에 대해 다소 효과를 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.