[논문 리뷰] Interpretations are useful: penalizing explanations to align neural networks with prior knowledge
CDEP는 신경망에 설명 기반 정규화를 추가하여 모델의 설명이 도메인 지식과 일치하도록 설명을 페널티를 부여하고, 허위 상관관계에 대한 의존을 줄이며 다양한 태스크에서 정확도와 공정성을 향상시킨다.
For an explanation of a deep learning model to be effective, it must provide both insight into a model and suggest a corresponding action in order to achieve some objective. Too often, the litany of proposed explainable deep learning methods stop at the first step, providing practitioners with insight into a model, but no way to act on it. In this paper, we propose contextual decomposition explanation penalization (CDEP), a method which enables practitioners to leverage existing explanation methods in order to increase the predictive accuracy of deep learning models. In particular, when shown that a model has incorrectly assigned importance to some features, CDEP enables practitioners to correct these errors by directly regularizing the provided explanations. Using explanations provided by contextual decomposition (CD) (Murdoch et al., 2018), we demonstrate the ability of our method to increase performance on an array of toy and real datasets.
연구 동기 및 목표
- 모델의 인사이트가 아닌 실행 가능한 개선을 뒷받침하는 설명의 필요성을 제시한다.
- 도메인 지식을 설명을 통해 주입하기 위해 Contextual Decomposition Explanation Penalization (CDEP)을 도입한다.
- 설명을 페널티하는 것이 허위 특징에 대한 의존을 줄이고 데이터셋 간 일반화 성능을 향상시킬 수 있음을 보인다.
- CDEP를 다양한 아키텍처와 태스크에 대해 효율적이고 적용 가능하다는 것을 보여준다.
제안 방법
- 손실 함수를 설명 손실 항으로 보강하여 모델 설명과 사용자 제공 대상(expl_X) 간의 발산을 페널티한다.
- Contextual Decomposition (CD)을 사용하여 특징 중요도와 상호 작용(beta(x_S), gamma(x))을 얻는다.
- CD 점수에 SoftMax를 적용하여 확률로 만들고 이를 L1 손실을 통해 expl_X와 비교하는 설명 항을 사용한다.
- 미분 가능한 해석 방법에 대해 CDEP를 일반화하되 림다를 규제 가중치로 제공하는 구체적 구현을 제시한다.
- 도메인 지식을 진짜 정답 설명으로 인코딩하고, 허위 영역이나 비현저한 특징을 식별하는 규칙을 포함한다.
- CD 기반 기여도는 그래디언트 기반 설명보다 메모리와 순전파/역전파 효율 측면에서 계산적 이점이 있음을 강조한다.
실험 결과
연구 질문
- RQ1CDEP를 통한 설명 페널티가 예측에 대한 올바르고 도메인에 맞는 근거로 학습을 유도할 수 있는가?
- RQ2CDEP가 데이터셋 편향과 분포 이동 하에서 허위 신호에 대한 의존을 줄이고 일반화를 향상시키는가?
- RQ3비전, 언어, 공정성 관련 태스크에서 CDEP의 성능은 그래디언트 기반 기여도 페널티와 비교했을 때 어떠한가?
- RQ4그래디언트 기반 방법에 비해 CD 기반 설명 페널티의 계산적 이점은 무엇인가?
주요 결과
- CDEP가 다양한 데이터셋에서 설명을 사전 지식과 정렬시키면서 예측 성능을 향상시킨다.
- ISIC 피부암에서 CDEP는 허위 패치에 대한 의존을 감소시키고 편향된 테스트 세트와 비편향된 테스트 세트 모두에서 AUC와 F1을 증가시킨다.
- ColorMNIST에서 CDEP는 모델이 색상 단서에서 모양 단서 쪽으로 전환되도록 하여 편향된 데이터에서 베이스라인보다 높은 정확도를 달성한다.
- COMPAS에서 CDEP는 정확도 손실 없이 인종 간의 오판 유죄율 차이를 줄인다.
- SST에서 편향된 텍스트 데이터로 학습할 때 CDEP가 첨가된 허위 신호를 무시해 정확도를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.