[논문 리뷰] Explanations based on the Missing: Towards Contrastive Explanations with Pertinent Negatives
이 논문은 Contrastive Explanations Method (CEM)을 소개합니다. CEM은 신경망의 분류를 정당화하기 위해 필요한 것이 무엇인지(pertinent positives)와 없어야 하는 것이 무엇인지(pertinent negatives)를 식별하여 설명하고, 선택적으로 오토인코더 보정(realism)을 통한 현실성 강화.
In this paper we propose a novel method that provides contrastive explanations justifying the classification of an input by a black box classifier such as a deep neural network. Given an input we find what should be %necessarily and minimally and sufficiently present (viz. important object pixels in an image) to justify its classification and analogously what should be minimally and necessarily \\emph{absent} (viz. certain background pixels). We argue that such explanations are natural for humans and are used commonly in domains such as health care and criminology. What is minimally but critically \\emph{absent} is an important part of an explanation, which to the best of our knowledge, has not been explicitly identified by current explanation methods that explain predictions of neural networks. We validate our approach on three real datasets obtained from diverse domains; namely, a handwritten digits dataset MNIST, a large procurement fraud dataset and a brain activity strength dataset. In all three cases, we witness the power of our approach in generating precise explanations that are also easy for human experts to understand and evaluate.
연구 동기 및 목표
- 분류기의 결정에 대한 최소한의 현재 특징/부재 특징을 식별하여 대조적으로 인간이 이해할 수 있는 설명을 동기화한다.
- 주어진 입력에 대해 Pertinent Positives(PP)와 Pertinent Negatives(PN)를 생성하기 위한 교란을 정의하고 최적화한다.
- 가능한 경우 데이터 매니폴드에 가까운 설명을 보장하기 위해 오토인코더 기반 재구성으로 설명의 근접성을 높인다.
- 다양한 도메인(MNIST, 조달 사기, 뇌 영상)에서 접근법을 검증하고 LRP 및 LIME과 같은 기존 방법과 비교한다.
제안 방법
- 입력의 교란에 대해 PP와 PN을 최적화 문제로 형식화한다.
- 히지 손실과 유사한 손실을 사용하여 교란된 입력을 다른 클래스(PN)로 이동시키거나 동일한 최상위 클래스를 유지하도록 한다.
- 희소성 및 안정성을 위해 Elastic-Net 정규화(L1 및 L2 항)를 도입한다.
- 선택적으로 교란이 데이터 매니폴드 근처에 있도록 오토인코더 재구성 손실로 제약을 둔다.
- L1 정규화를 효과적으로 다루기 위해 Projection FISTA를 사용한다.
실험 결과
연구 질문
- RQ1주어진 예측에 대해 최소한의 현재 및 부재 특징을 지정하는 인스턴스별 대조적 설명을 생성할 수 있는가?
- RQ2Pertinent Positives와 Pertinent Negatives가 기존 방법보다 더 직관적이고 인간과 맞닿은 설명을 제공하는가?
- RQ3CEM은 LRP 및 LIME과 비교하여 이미지 및 비이미지 도메인(MNIST, 조달 사기, fMRI)에서 어떻게 성능을 발휘하는가?
- RQ4오토인코더를 통한 데이터 매니폴드 근접성 보장이 설명 품질을 향상시키는가?
주요 결과
- CEM은 분류를 위해 어떤 특징이 존재해야 하고 어떤 특징이 없어야 하는지를 강조함으로써 해석 가능한 설명을 제공한다.
- MNIST에서 CEM 설명은 오토인코더 여부에 관계없이 LRP/LIME보다 해석 가능성이 높고, 오토인코더가 명확성을 돕는다.
- 조달 사기 데이터에서 PP/PN 설명은 전문가의 판단과 밀접하게 일치하며 경쟁 방법의 대리 변수보다 우수하다.
- ABIDE fMRI 데이터에서 CEM은 네트워크 및 뇌 영역 수준의 패턴을 식별하여 자폐 연결 변화와 일치하며, Pertinent Positives를 식별하는 데 LRP보다 우수하다.
- 세 데이터 세트에 대한 정량적 평가에서 PP/PN 교란이 원래 클래스 보존 또는 반전을 달성하는 데 100% 효과적임을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.