[논문 리뷰] Generating Counterfactual Explanations with Natural Language
이 논문은 이미지 분류에 대한 반사실적(counterfactual) 텍스트 설명을 생성하는 방법을 제안한다. 이는 반대 클래스(counter-classes)에 대해 구별되는 증거를 식별하고, 이미지에서의 존재 여부를 확인한 뒤, 그것을 부정하여 유창한 반사실 문장을 생성한다. Caltech-UCSD Birds 데이터셋에서 구문 오류 및 반사실 텍스트 영향에 대한 자동 메트릭으로 평가한다.
Natural language explanations of deep neural network decisions provide an intuitive way for a AI agent to articulate a reasoning process. Current textual explanations learn to discuss class discriminative features in an image. However, it is also helpful to understand which attributes might change a classification decision if present in an image (e.g., "This is not a Scarlet Tanager because it does not have black wings.") We call such textual explanations counterfactual explanations, and propose an intuitive method to generate counterfactual explanations by inspecting which evidence in an input is missing, but might contribute to a different classification decision if present in the image. To demonstrate our method we consider a fine-grained image classification task in which we take as input an image and a counterfactual class and output text which explains why the image does not belong to a counterfactual class. We then analyze our generated counterfactual explanations both qualitatively and quantitatively using proposed automatic metrics.
연구 동기 및 목표
- 이미지가 반대 클래스에 속하지 않는 이유를 설명하는 설명을 제시하고 가능하게 하는 것을 목표로 한다.
- 이미지 외의 의미론적 증거를 활용하여 정보성 있는 반사실 진술을 생성한다.
- 반사실 증거를 예측하고 이미지에서의 부재를 확인하며 유창한 반사실 텍스트를 생성하는 엔드-투-엔드 파이프라인을 개발한다.
- 제안된 지표로 세밀한 데이터셋에서 반사실 설명의 질과 판별성을 평가한다.
제안 방법
- 생성된 설명에서 명사구 추출을 사용해 반대 클래스의 설명으로부터 후보 반사실 증거를 예측한다.
- 두 증거 확인기(Counterfactual: Classifier, Counterfactual: Phrase-Critic)를 사용해 반사실 증거가 이미지에 존재하는지 검증한다.
- 선정된 반사실 어구를 부정하고 반대 클래스와 비교하는 응집된 문장을 구성한다(예: This is not a X because...).
- 룰 기반 부정 시스템을 사용해 최종 반사실 문장을 형성하고 기본 설명에 덧붙인다.
- 선택적으로 검색-근거화 모델을 통해 이미지에서 어구를 위치시키고 이를 통해 Phrase-Critic 점수를 안내한다.
- Caltech-UCSD Birds 데이터셋에서 반사실 텍스트의 구문 오류 및 정확도로 평가한다.
실험 결과
연구 질문
- RQ1반사실 설명이 이미지에 없어서 클래스 결정이 바뀔 수 있는 속성을 지적함으로써 해석 가능성을 개선할 수 있는가?
- RQ2모델이 이미지에 없어진 반사실 증거를 얼마나 정확하게 예측하고 검증할 수 있는가?
- RQ3반사실 추가가 설명에서 클래스에 대한 구분 판단을 감소시켜 판별성을 나타내는가?
- RQ4어떤 증거 확인기(Classifier vs Phrase-Critic)가 더 강력한 반사실 텍스트 생성을 돕는가?
주요 결과
| 모델 | 구문 오류 | CF 텍스트 포함 시 정확도 |
|---|---|---|
| Baseline | 16.26 | 39.54 |
| CF: Classifier | 8.99 | 38.16 |
| CF: Phrase-Critic | 7.37 | 36.62 |
- 두 개의 반사실 모델(CF: Classifier와 CF: Phrase-Critic)은 생성된 설명의 구문 오류를 줄이는 데에서 베이스라인을 능가한다.
- 모든 모델에서 반사실 텍스트가 추가되면 문장 수준 정확도가 감소하여 텍스트가 클래스-구분 판단에 영향을 준다.
- Phrase-Critic 모델은 일반적으로 더 나은 구문-근거 매칭성과 더 낮은 구문 오류를 보여 베이스라인 및 Classifier보다 반사실 속성의 위치지정이 개선된다.
- 외부 데이터(예: Visual Genome)와 구문 수준 위치지정이 반사실 증거 선택의 효과를 높이는 데 도움이 된다.
- 베이스라인은 구문 오류에서 여전히 강하지만 반사실 접근법이 부정확한 반사실 언급을 줄이는 면에서 더 우수하다.
- 정성적 예시는 'This is not a Bobolink because it does not have a yellow nape'와 같은 반사실 설명으로 유사한 새들 간의 차이를 명확히 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.