QUICK REVIEW

[논문 리뷰] This Looks Like That: Deep Learning for Interpretable Image Recognition

Chaofan Chen, Oscar Li|arXiv (Cornell University)|2018. 06. 27.

Explainable Artificial Intelligence (XAI)참고 문헌 64인용 수 565

한 줄 요약

ProtoPNet은 프로토타입 파트 추론을 통해 이미지 분류를 수행하고, 해석 가능하고 파트 기반의 설명으로 경쟁력 있는 정확도를 달성하며, 새와 자동차 데이터셋에서 성능 향상을 위해 여러 ProtoPNets를 조합하는 것을 가능하게 합니다.

ABSTRACT

When we are faced with challenging image classification tasks, we often explain our reasoning by dissecting the image, and pointing out prototypical aspects of one class or another. The mounting evidence for each of the classes helps us make our final decision. In this work, we introduce a deep network architecture -- prototypical part network (ProtoPNet), that reasons in a similar way: the network dissects the image by finding prototypical parts, and combines evidence from the prototypes to make a final classification. The model thus reasons in a way that is qualitatively similar to the way ornithologists, physicians, and others would explain to people on how to solve challenging image classification tasks. The network uses only image-level labels for training without any annotations for parts of images. We demonstrate our method on the CUB-200-2011 dataset and the Stanford Cars dataset. Our experiments show that ProtoPNet can achieve comparable accuracy with its analogous non-interpretable counterpart, and when several ProtoPNets are combined into a larger network, it can achieve an accuracy that is on par with some of the best-performing deep models. Moreover, ProtoPNet provides a level of interpretability that is absent in other interpretable deep models.

연구 동기 및 목표

모델이 인간의 추론과 유사한 프로토타입 파트를 통해 결정 과정을 설명하도록 촉구하여 해석 가능한 이미지 분류를 고취한다.
파트 기반 추론을 위한 프로토타입 층을 포함한 신경망 아키텍처를 개발한다.
파트 중심 제약을 사용하여 파트 수준 라벨 없이 엔드-투-엔드로 모델을 훈련한다.
CUB-200-2011 및 Stanford Cars 데이터셋에서 해석 가능성과 경쟁력 있는 정확도를 시연한다.

제안 방법

ProtoPNet 아키텍처를 도입한다: CNN 백본 f, m개의 프로토타입 층 g_p, 바이어스 없는 최종 선형 층 h.
프로토타입 유닛은 f(x)의 패치에 대한 제곱 L2 거리를 계산하고 단조 변환을 통해 유사도 점수로 변환한다.
각 프로토타입은 학습 이미지 패치에 대응하는 잠재 패치를 대표하며, 클래스별로 프로토타입이 배치되고 투사 후 가장 가까운 잠재 학습 패치로 시각화된다.
훈련은 세 가지 단계로 진행된다: (i) 군집화 및 분리 손실로 잠재 공간을 형성하기 위한 conv 층과 프로토타입에 대한 SGD, (ii) 프로토타입을 가장 가까운 잠재 학습 패치로 투영, (iii) 스파시티와 충실한 클래스별 가중치를 촉진하기 위한 마지막 층의 볼록 최적화.
모델은 학습 중 이미지 수준 레이블만 사용하며, 디코더 없이도 프로토타입 시각화를 달성한다.
주요 방정식에는 프로토타입 유사도 g_p_j(z) = max over patches(z) of log(((||patch - p_j||^2 + 1) / (||patch - p_j||^2 + epsilon))) 및 잠재 공간을 구성하는 Clst와 Sep 항이 포함된다.

실험 결과

연구 질문

RQ1신경망이 prototypical 파트를 통해 내부적으로 설명 가능한 방식으로 이미지 분류를 수행할 수 있는가?
RQ2프로토타입 기반 추론 메커니즘을 포함하는 것이 비해석적 기반 모델과 비교해 경쟁력 있는 정확도를 유지하는가?
RQ3여러 ProtoPNet 모델을 결합하는 것이 해석 가능성을 유지하면서 정확도를 어떻게 영향을 미치는가?
RQ4새의 종이나 자동차 모델과 같은 미세한 작업에서 프로토타입과 시각화의 질적 동작은 어떠한가?

주요 결과

ProtoPNet은 다양한 기본 CNN을 사용할 때 크롭된 새 이미지에서 비해석적 기반 모델과 비교 가능한 정확도를 달성한다.
여러 ProtoPNets의 결합 네트워크는 크롭된 새 데이터셋에서 최상위 딥 모델 중 일부와 유사한 정확도(최대 84.8%)를 달성한다.
전체 이미지에서 개별 ProtoPNet 모델의 정확도는 낮지만, VGG19/ResNet34/DenseNet 기반 ProtoPNets를 결합하면 80%대 이상의 정확도(예: 결합 모델의 80.8%)를 달성한다.
자동차 모델 데이터셋에서 결합 ProtoPNet은 91.4%의 정확도로 최첨단 모델과 경쟁한다(예: 최상위 방법의 91.3%–92.8%).
ProtoPNet은 의사 결정에 기여하는 프로토타입 파트(예: 새의 머리, 날개)를 보여주고 해당하는 프로토타입 이미지 패치를 제공함으로써 충실하고 인간이 해석 가능한 설명을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.