[논문 리뷰] Hierarchical interpretations for neural network predictions
ACD는 응집적 맥락 분해를 도입하여 DNN 예측에 대한 계층적이고 그룹 기반의 해석을 제공하고, NLP 및 비전 작업 전반에서 구/패치 수준의 인사이트와 견고한 시각화를 가능하게 한다.
Deep neural networks (DNNs) have achieved impressive predictive performance due to their ability to learn complex, non-linear relationships between variables. However, the inability to effectively visualize these relationships has led to DNNs being characterized as black boxes and consequently limited their applications. To ameliorate this problem, we introduce the use of hierarchical interpretations to explain DNN predictions through our proposed method, agglomerative contextual decomposition (ACD). Given a prediction from a trained DNN, ACD produces a hierarchical clustering of the input features, along with the contribution of each cluster to the final prediction. This hierarchy is optimized to identify clusters of features that the DNN learned are predictive. Using examples from Stanford Sentiment Treebank and ImageNet, we show that ACD is effective at diagnosing incorrect predictions and identifying dataset bias. Through human experiments, we demonstrate that ACD enables users both to identify the more accurate of two DNNs and to better trust a DNN's outputs. We also find that ACD's hierarchy is largely robust to adversarial perturbations, implying that it captures fundamental aspects of the input and ignores spurious noise.
연구 동기 및 목표
- 단일 피처의 중요성에 국한되지 않는 DNN 예측 설명의 필요성을 제시한다.
- 임의의 DNN 아키텍처에서 피처 그룹 간의 상호작용을 추출하는 일반적인 방법을 개발한다.
- 다중 세분성에서 예측 상호작용을 시각화하는 계층적 시각화 프레임워크를 만든다.
- ACD의 유용성을 잘못된 예측 진단, 데이터셋 바이어스 탐지, 신뢰도/공격적 강건성 평가에 시연한다.
제안 방법
- 컨텍추얼 디콤포지션(CD)을 임의의 DNN으로 일반화하여, 각 층에서 로짓 g(x)를 beta(x)와 gamma(x)로 분해한다(방정식 1–6).
- 합성곱 층의 바이어스를 구분하고 ReLU 및 최대 풀링에 대한 분해 규칙을 적용하여 층별 CD 구성요소를 생성한다(방정식 5–11).
- CD 점수를 연결 메트릭으로 사용하는 응집적 클러스터링을 정의하여 계층적 해석을 구축한다(Algorithm 1).
- 상위 점수의 그룹을 반복적으로 추가하고(상위의 k% 이내), 현재 그룹을 인접 피처(text)나 패치(images)로 확장하여 후보 그룹을 생성한다.
- 응용 특성 기준에 따라 계층 구조를 종료한다(예: 감성에 대해 모든 단어가 선택되면 중지; 이미지의 경우 정의된 반복 횟수 후 종료).
- 이 방법은 클러스터링을 주도하는 그룹 수준의 중요도 점수 함수(CD)를 필요로 하는 것을 제외하면 모델에 구애받지 않는다.
실험 결과
연구 질문
- RQ1계층적 그룹 기반 설명은 DNN이 학습한 비선형 피처 상호작용을 드러낼 수 있는가?
- RQ2응집적 맥락 분해(ACD)가 NLP 및 비전 모델 전반에서 직관적이고 신뢰할 수 있는 해석을 생성하는가?
- RQ3ACD 계층이 비계층적 해석에 비해 적대적 노이즈에 견고한가요?
- RQ4ACD가 SST, MNIST, ImageNet과 같은 실제 데이터세트에서 잘못된 예측과 데이터셋 바이어스를 진단하는 데 도움이 되는가?
주요 결과
| 길이 | 양성 구문 | 음성 구문 |
|---|---|---|
| 1 | pleasurable, sexy, glorious | nowhere, grotesque, sleep |
| 3 | amazing accomplishment., great fun. | bleak and desperate, conspicuously lacks. |
| 5 | a pretty amazing accomplishment. | ultimately a pointless endeavour. |
| 8 | presents it with an unforgettable visual panache. | my reaction in a word: disappointment. |
- ACD는 예측에 기여하는 의미 있는 구문과 이미지 패치를 보여주는 직관적 시각화를 생성한다.
- 실험 참여자 연구에서 ACD가 사용자가 더 정확한 모델을 식별하고 ACD를 이전 방법보다 더 신뢰할 수 있다고 평가하는 데 도움이 됨을 보여준다.
- ACD 계층은 적대적 교란에 대한 견고함을 보여주며, 노이즈가 아닌 기본 입력 특징을 포착함을 시사한다.
- 질적 예시들은 SST의 잘못된 예측을 진단하고 ImageNet에서 데이터셋 바이어스를 식별한다(예: 스케이트 특징이 퍽 분류를 돕는 경우).
- Table 1은 SST에서 ACD로 발견된 다양한 길이의 최상위 점수 구문을 보여준다(양성 구문과 음성 구문의 예시).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.