QUICK REVIEW

[논문 리뷰] Compositional Explanations of Neurons

Jesse Mu, Jacob Andreas|arXiv (Cornell University)|2020. 06. 24.

Explainable Artificial Intelligence (XAI)참고 문헌 38인용 수 50

한 줄 요약

논문은 개별 뉴런을 설명하기 위해 논리적 개념을 조합하는 방법을 제시하고, 비전과 NLP 뉴런의 지각적 추상화와 얕은 휴리스틱스를 모두 드러내며, 이러한 설명이 성능과 어떻게 관련되는지 보여주고 표적 인 adversarial perturbations를 안내할 수 있다.

ABSTRACT

We describe a procedure for explaining neurons in deep representations by identifying compositional logical concepts that closely approximate neuron behavior. Compared to prior work that uses atomic labels as explanations, analyzing neurons compositionally allows us to more precisely and expressively characterize their behavior. We use this procedure to answer several questions on interpretability in models for vision and natural language processing. First, we examine the kinds of abstractions learned by neurons. In image classification, we find that many neurons learn highly abstract but semantically coherent visual concepts, while other polysemantic neurons detect multiple unrelated features; in natural language inference (NLI), neurons learn shallow lexical heuristics from dataset biases. Second, we see whether compositional explanations give us insight into model performance: vision neurons that detect human-interpretable concepts are positively correlated with task performance, while NLI neurons that fire for shallow heuristics are negatively correlated with task performance. Finally, we show how compositional explanations provide an accessible way for end users to produce simple "copy-paste" adversarial examples that change model behavior in predictable ways.

연구 동기 및 목표

뉴런이 비전 및 NLP에서 의미 있는 구성적 개념을 학습하는지 여부를 식별한다.
구성적 설명이 작업 전반에 걸친 모델 성능과 어떻게 관련되는지 평가한다.
뉴런 설명이 표적 입력을 통해 모델 동작을 예측 가능하게 조작할 수 있는지 입증한다.

제안 방법

입력(예: 이미지 영역, 어휘 특징)에 대한 이진 탐지기로서 원시 개념의 공간을 정의한다.
뉴런 활성화를 이진 마스크로 변환하고 개념과의 IoU를 통해 유사성을 측정한다.
Or, And, Not, Neighbors 연산자를 사용한 구성 논리 형태를 확장하여 L(C)을 만든다.
IoU를 최대화하도록 길이 제한(N) 있는 빔 탐색으로 구성 공간에서 최적의 설명 L을 탐색한다.
이 방법을 이미지 분류(Places365에서 ResNet-18, Broden 주석)와 자연어 추론(SNLI에서 BiLSTM + MLP, 전제/가설 단어 및 겹침 탐색)에 적용한다.
다양한 형식 길이에서 설명 품질(IoU)을 비교하여 구성성 및 해석 가능성을 평가한다.

실험 결과

연구 질문

RQ1뉴런은 비전 및 NLP 모델에서 어떤 종류의 구성적 개념을 학습하는가?
RQ2뉴런 설명의 해석 가능성이 작업 전반에 걸친 모델 정확도와 어떤 관련이 있는가?
RQ3구성적 뉴런 설명을 사용해 표적 입력을 통해 모델 동작을 예측하고 영향을 줄 수 있는가?

주요 결과

뉴런은 종종 구성적 개념을 학습하며; 일부 탐지기는 의미 있는 추상화를 포착하지만 다른 경우에는 다의적이거나 관련 없는 특징에 의존한다.
IoU 기반 설명 품질은 더 긴 수식 길이에 따라 향상되며, 이미지 분류에서 N=1일 때 평균 0.059에서 N=10일 때 0.099로 상승하였고(유의미한 증가; p=2e-9).
비전 분야에서 해석 가능성이 높은 뉴런(IoU가 큰)이 뉴런이 활성화될 때 더 높은 정확도와 상관관계가 있으며(r=0.31, p<1e-13), 수식 길이가 길어질수록 상관관계가 더 강해진다.
NLI에서 설명은 종종 피상적 어휘 휴리스틱(예: 성별, 중복)을 반영하는 경향이 있으며, 역설적으로 더 해석 가능한 뉴런이 작업 성능과 음의 상관관계(r=-0.60, p<1e-08)를 보이는 경향이 있어 많은 설명이 가짜 상관관계를 포착한다는 것을 시사한다.
이 접근법은 설명 뉴런을 타깃으로 하는 “카피-앤-붙여넣기” 적대적 예시를 생성하는 것을 가능하게 하여 비전과 NLI 모두에서 모델 동작에 예측 가능하게 영향을 주는扰 perturbations를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.