QUICK REVIEW

[논문 리뷰] Inverse Classification for Comparison-based Interpretability in Machine Learning

Thibault Laugel, Marie‐Jeanne Lesot|arXiv (Cornell University)|2017. 12. 22.

Explainable Artificial Intelligence (XAI)참고 문헌 17인용 수 46

한 줄 요약

이 논문은 모델 및 데이터에 관계없이 적용 가능한 후행 해석 방법인 Growing Spheres를 제안한다. 이 방법은 희박성 제약이 가해진 거리 척도 하에, 예측 클래스가 반대인 가장 가까운 반대사례(다른 클래스의 최근접 이웃)를 찾아내어 개별 분류기 예측을 설명한다. 이는 입력 공간에서 반복적으로 구를 확장하여 예측을 뒤집는 최소한의 변형을 찾는 방식으로, 희박성 높은 설명(최대 7.9%의 특성 사용)을 생성함으로써 이미지 및 테이블 형 데이터에서 효과를 입증한다.

ABSTRACT

In the context of post-hoc interpretability, this paper addresses the task of explaining the prediction of a classifier, considering the case where no information is available, neither on the classifier itself, nor on the processed data (neither the training nor the test data). It proposes an instance-based approach whose principle consists in determining the minimal changes needed to alter a prediction: given a data point whose classification must be explained, the proposed method consists in identifying a close neighbour classified differently, where the closeness definition integrates a sparsity constraint. This principle is implemented using observation generation in the Growing Spheres algorithm. Experimental results on two datasets illustrate the relevance of the proposed approach that can be used to gain knowledge about the classifier.

연구 동기 및 목표

모델나 훈련 데이터에 대한 정보가 전혀 없는 블랙박스 분류기 예측을 해석하는 데 도전하는 것.
다른 클래스의 가장 가까운 인스턴스와의 비교를 통해 개별 예측을 설명하는 후행 해석 접근법을 개발하는 것.
거리 척도에 희박성 제약 조건을 통합하여 설명이 희박하고 국소적으로 의미 있는 것으로 보장하는 것.
모델 내부나 훈련 데이터에 의존하지 않고도 복잡한 분류기의 국소 결정 경계에 대한 통찰을 제공하는 것.
실제 데이터셋에서 방법을 검증하고, 분류기의 행동(예: 잠재적 편향 또는 오류)을 드러내는 데 성공하는 것.

제안 방법

이 방법은 희박성 제약이 가해진 거리 척도 하에, 예측 클래스를 뒤집는 데 필요한 최소한의 변형을 찾는 것으로 설명 작업을 수립한다.
이를 위해 입력 인스턴스 주변의 초구를 점진적으로 확장하여 가장 가까운 반대사례(다른 클래스의 점)를 찾는 Growing Spheres 알고리즘을 사용한다.
알고리즘은 분류기의 출력을 기반으로 제어된 변형을 통해 새로운 관측치를 생성함으로써 입력 공간을 국소적으로 탐색하는 전략을 채택한다.
비용 함수는 원래 인스턴스에 가까운 위치와 변형의 희박성 사이의 균형을 맞추며, 오직 몇몇 특성만 수정하는 설명을 선호한다.
반대사례가 발견되면 탐색이 종료되어 설명이 동시에 가까우며 희박함을 보장한다.
이 접근법은 완전히 모델에 관계없으며, 분류기의 아키텍처나 훈련 데이터가 아닌 추론 접근 권한만 필요하다.

실험 결과

연구 질문

RQ1모델의 내부 구조나 훈련 데이터에 접근할 수 없는 상황에서, 블랙박스 분류기의 단일 예측을 어떻게 해석할 수 있는가?
RQ2모델 예측에 대해 희박하고 국소적으로 관련성이 높은 반대사례 기반 설명을 생성하는 데 가장 효과적인 방법은 무엇인가?
RQ3Growing Spheres와 같은 생성형, 인스턴스 기반 접근법이 분류기의 예측을 뒤집는 최소한의 변형을 신뢰성 있게 찾을 수 있는가?
RQ4복잡하거나 비선형적인 모델일지라도, 생성된 설명이 국소 결정 경계를 얼마나 잘 반영하는가?
RQ5특히 숫자 인식과 같은 시각적으로 의미 있는 작업에서, 설명이 인간의 직관과 특성 중요도 측면에서 얼마나 유사한가?

주요 결과

Growing Spheres 알고리즘이 예측을 뒤집는 데 최소한의 희박한 변형이 필요한 반대사례를 성공적으로 식별했으며, 테스트 인스턴스의 100%가 최대 62개의 특성(전체 특성의 7.9%)을 사용하여 설명 가능했다.
숫자 분류 작업에서, 이 방법은 8과 9 사이의 예측을 뒤집는 데 있어 하단 왼쪽 영역의 변화(예: 고리의 닫힘 또는 열림)가 가장 영향을 미친다는 것을 정확히 식별했다.
높은 분류기 정확도(0.98 AUC)에도 불구하고, 모델는 비직관적인 행동을 보였는데, 예를 들어 상단 오른쪽 픽셀의 변화가 영향을 미친다고 판단하여 결정 경계의 정확도 문제가 있을 수 있음을 시사했다.
생성된 반대사례가 항상 시각적으로 타당하지는 않았다(예: 노이즈가 많거나 왜곡된 숫자), 이는 분류기가 인간의 개념 이해와 다를 수 있는 결정 경계를 학습했다는 것을 시사한다.
이 방법은 모델에 접근할 수 없는 뉴스 인기 예측 작업에서 특성 중요도에 대한 의미 있는 통찰을 제공했으며, 국소적으로 중요한 특성을 드러냈다.
실제 응용에서 이 방법은 강건성과 해석 가능성 모두를 입증하여, 데이터 및 모델에 관계없는 환경에서 블랙박스 분류기에 대한 지식을 확보하는 데 실용성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.