[논문 리뷰] Counterfactual Visual Explanations
이 논문은 주 이미지의 영역을 방해자 이미지의 영역으로 편집하여 모델의 예측을 바꾸는 반사실적 시각 설명(counterfactual visual explanations)을 생성하는 방법을 제시하고, 여러 데이터셋에서 해석 가능성과 기계 학습 교사로서의 활용 가능성을 입증합니다.
In this work, we develop a technique to produce counterfactual visual explanations. Given a 'query' image $I$ for which a vision system predicts class $c$, a counterfactual visual explanation identifies how $I$ could change such that the system would output a different specified class $c'$. To do this, we select a 'distractor' image $I'$ that the system predicts as class $c'$ and identify spatial regions in $I$ and $I'$ such that replacing the identified region in $I$ with the identified region in $I'$ would push the system towards classifying $I$ as $c'$. We apply our approach to multiple image classification datasets generating qualitative results showcasing the interpretability and discriminativeness of our counterfactual explanations. To explore the effectiveness of our explanations in teaching humans, we present machine teaching experiments for the task of fine-grained bird classification. We find that users trained to distinguish bird species fare better when given access to counterfactual explanations in addition to training examples.
연구 동기 및 목표
- 딥 비전 모델에 대한 반사실적 시각 설명을 동기 부여하고 형식화한다.
- 이미지 영역을 대체하여 모델의 출력을 특정 방해자(class)로 바꾸는 최소 편집 변환을 정의한다.
- 데이터셋 전반에 걸쳐 반사실적 설명의 해석 가능성과 구분력을 보여준다.
- 미세한 과제의 기계 교육에서 반사실적 설명의 가능성을 시연한다.
제안 방법
- CNN을 공간 특징 추출기 f(I)와 결정 네트워크 g(f(I))로 분해한다.
- 이진 마스크 a와 영역 정렬을 위한 순열 P를 사용하여 변환 f(I) -> f(I*) = (1-a) ∘ f(I) + a ∘ (P f(I′))를 정의한다.
- 최소 편집 반사실성 문제를 다음과 같이 형식화한다: ||a||1를 최소화하되 c′ = argmax g(f(I*))를 만족하도록 한다.
- 결정이 바뀔 때까지 방해자 클래스의 로그 확률 g_c′를 최대화하는 편집을 선택하는 탐욕적 순차 탐색으로 해결한다.
- 연속 완화를 제공하여 a를 단순한 확률분포로, P를 오른쪽 확률 행렬로 이완시키고 softmax 재매개변수화 a = σ(α)와 P_i· = σ(m_i^T)로 처리한다.
- SHAPES, MNIST, Omniglot, CUB에서 주관적 결과와 편집 수, 런타임 등의 정량적 지표로 평가한다.
실험 결과
연구 질문
- RQ1모델이 다른 클래스 예측으로 바뀌려면 무엇이 바꿔져야 하는지 밝히는 faithful 반사실적 시각 설명을 어떻게 생성할 수 있는가?
- RQ2반사실적 시각 설명이 표준 학습 예시를 넘어서 사람의 학습 및 미세한(세밀한) 범주 구별에 도움을 주는가(기계적 교육)?
- RQ3설명은 데이터셋 간 구분 가능 영역과 키포인트와 얼마나 잘 정렬되는가?
- RQ4다른 방해자 선택(무작위 대 최근접 이웃)과 함께 설명의 안정성은 어느 정도인가?
주요 결과
- 반사실적 설명은 대상 방해자 클래스를 가능하게 하는 구별 가능한 영역 편집을 식별하며, 데이터셋 간 해석 가능한 영역 쌍을 보여준다.
- MNIST 결과는 방해자 클래스로 전환하는 데 평균 2.67 편집이 필요하며 Titan Xp에서 이미지당 15 μs의 시간이 소요된다.
- Omniglot 결과는 이미지당 평균 1.46 편집으로 런타임은 9 μs이다.
- CUB 실험은 무작위 방해자에서 평균 7.4, 최근접 이웃 방해자에서 평균 5.3의 편집과 이미지당 각각 1.85초, 1.34초의 런타임을 보고한다.
- CUB에서의 기계 교육은 반사실적 설명과 함께 테스트 정확도가 평균 78.77%, GradCAM으로는 74.29%, 설명 없이는 71.09%를 보였고, 친숙도가 높을수록 반사실적을 사용할 때 성능이 72.4%로 상승하는 반면 설명이 없으면 61.7%였다.
- 구별 가능한 영역은 자주 새의 분할 내에 위치하며(97%), 키포인트와의 정렬은 75-80%의 시간에서 나타난다; 설명은 예측이 틀렸을 때도 올바른 클래스 속성을 강조할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.