QUICK REVIEW

[논문 리뷰] The Out-of-Distribution Problem in Explainability and Search Methods for Feature Importance Explanations

Peter Hase, Harry Xie|arXiv (Cornell University)|2021. 06. 01.

Explainable Artificial Intelligence (XAI)인용 수 23

한 줄 요약

이 논문은 NLP에서의 특성 중요도(FI) 설명이 사회적으로 부적합한 이유를 밝혀내며, 대체로 특성들을 제거하거나 교체하여 생성된 조건부 입력(Counterfactual inputs)이 분포 외(out-of-distribution, OOD)이기 때문에 모델의 행동이 무작위 가중치 초기화와 사전 지식에 영향을 받는다고 분석한다. 이를 해결하기 위해 저자는 설명 시점의 분포와 일치하도록 테스트 시점의 설명을 보정하기 위해 조건부 입력을 학습에 포함시키는 방법을 제안하고, 기존의 LIME, Anchors, 통합 기울기(Integrated Gradients)보다 최대 5.4점 높은 충족도(Sufficiency)와 17점 높은 종합성(Comprehensiveness)을 확보한 새로운 병렬 국소 탐색(Parallel Local Search, PLS) 방법을 도입한다. 이는 여섯 개인 텍스트 분류 데이터셋에서 검증되었다.

ABSTRACT

Feature importance (FI) estimates are a popular form of explanation, and they are commonly created and evaluated by computing the change in model confidence caused by removing certain input features at test time. For example, in the standard Sufficiency metric, only the top-k most important tokens are kept. In this paper, we study several under-explored dimensions of FI explanations, providing conceptual and empirical improvements for this form of explanation. First, we advance a new argument for why it can be problematic to remove features from an input when creating or evaluating explanations: the fact that these counterfactual inputs are out-of-distribution (OOD) to models implies that the resulting explanations are socially misaligned. The crux of the problem is that the model prior and random weight initialization influence the explanations (and explanation metrics) in unintended ways. To resolve this issue, we propose a simple alteration to the model training process, which results in more socially aligned explanations and metrics. Second, we compare among five approaches for removing features from model inputs. We find that some methods produce more OOD counterfactuals than others, and we make recommendations for selecting a feature-replacement function. Finally, we introduce four search-based methods for identifying FI explanations and compare them to strong baselines, including LIME, Anchors, and Integrated Gradients. Through experiments with six diverse text classification datasets, we find that the only method that consistently outperforms random search is a Parallel Local Search (PLS) that we introduce. Improvements over the second-best method are as large as 5.4 points for Sufficiency and 17 points for Comprehensiveness. All supporting code for experiments in this paper is publicly available at https://github.com/peterbhase/ExplanationSearch.

연구 동기 및 목표

설명 평가 과정에서 분포 외(out-of-distribution, OOD)인 조건부 입력으로 인해 발생하는 특성 중요도(FI) 설명의 사회적 부적합성 문제를 규명하고 해결하는 것.
모델에 대해 생성된 조건부 입력이 얼마나 OOD인지 평가하기 위해 다양한 특성 대체 함수(Replace functions)를 체계적으로 비교하는 것.
LIME, Anchors, 통합 기울기 등의 기존 기준보다 우수한 고품질 FI 설명을 식별하기 위한 새로운 기반 기반 검색 방법을 설계하고 평가하는 것.
테스트 시점의 조건부 입력이 분포 내에 있도록 하기 위해 학습 시점에 설명용 조건부 입력을 노출시키는 개입 전략을 제안하는 것.
표준 지표인 충족도(Sufficiency)와 종합성(Comprehensiveness)을 사용하여 여섯 가지 다양한 텍스트 분류 데이터셋에서 제안된 방법의 효과를 실증적으로 검증하는 것.

제안 방법

설명 방법에 의해 생성된 조건부 입력(예: 상위-k 특성들을 특수 토큰으로 대체)을 사용해 모델을 피니테이닝(fine-tuning)하는 새로운 학습 절차를 제안하여, 테스트 시점의 조건부 입력이 분포 내에 있도록 만드는 것.
충족도 지표를 최대화하기 위해 국소 탐색 휴리스틱을 사용해 병렬적으로 여러 후보 설명을 탐색하는 새로운 검색 기반 설명 방법인 병렬 국소 탐색(Parallel Local Search, PLS)을 도입하는 것.
다섯 가지 Replace 함수를 체계적으로 비교: (1) 토큰을 완전히 제거, (2) 0 임베딩으로 대체, (3) 특수 [MASK] 토큰으로 대체, (4) 조건부 입력에 대해 평균화, (5) 입력 텍스트 대신 어텐션 마스크를 편집.
모델의 신뢰도가 특성 대체 시에 감소하는 정도를 충족도 지표로 정의: $\textrm{Suff}(f,x,e) = f(x)_{\hat{y}} - f(\texttt{Replace}(x,e))_{\hat{y}}$, 여기서 $\hat{y}$ 는 모델의 원래 예측이다.
모든 검색 방법 간의 공정한 비교를 위해 정의된 계산 예산(전방 및 역방향 전파 수)을 기준으로 하며, 벽시계 시간(wall-clock time)을 보조 기준으로 사용.
여섯 개의 텍스트 분류 데이터셋(FEVER, SNLI 등)에서 충족도 및 종합성 지표를 사용해 모든 방법을 평가하고, Replace 함수와 학습 시점 개선 전략에 대한 분석 실험을 수행.

실험 결과

연구 질문

RQ1FI 설명 평가에서 사용되는 조건부 입력의 분포 외(OOD) 성격이 모델의 사전 지식과 무작위 가중치 초기화에 의해 영향을 받는 사회적 부적합한 설명을 초래하는 방식은 무엇인가?
RQ2어느 특성 대체 함수(Replace functions)가 모델에 대해 가장 낮은 OOD 수준의 조건부 입력을 생성하며, 이는 설명 품질과 지표 신뢰성에 어떤 영향을 미치는가?
RQ3기존 기준인 LIME, Anchors, 통합 기울기보다 검색 기반 방법이 고품질 특성 중요도 설명을 식별하는 데 더 우수한 성능을 보일 수 있는가?
RQ4학습 시점에 조건부 입력을 노출시켜 모델를 피니테이닝하는 것이 테스트 시점 설명의 강건성과 사회적 일치성을 향상시키는가?
RQ5다양한 검색 알고리즘 간의 상대적 성능는 어떻게 되며, 제안된 병렬 국소 탐색(PLS) 방법이 다양한 데이터셋과 지표에서 일관되게 우월한 성능을 보이는가?

주요 결과

설명 방법에 의해 생성된 조건부 입력을 학습에 활용함으로써 테스트 시점의 분석에서 발생하는 OOD 성격이 크게 감소하여 더 강건하고 사회적으로 일치하는 설명이 가능해졌다.
병렬 국소 탐색(PLS) 방법은 모든 기준보다 뚜렷하게 뛰어난 성능을 보였으며, 여섯 개의 텍스트 분류 데이터셋에서 충족도 지표에 대해 최대 5.4점, 종합성 지표에 대해 최대 17점 향상되었다.
평가한 다섯 가지 Replace 함수 중에서 특수 [MASK] 토큰으로 대체하거나 어텐션 마스크를 편집하는 방식이 0 임베딩이나 완전한 제거보다 더 낮은 OOD 수준의 조건부 입력을 생성했으며, 이는 지표의 신뢰성 향상에 유리하다고 판단되었다.
Replace 함수의 선택은 설명 품질에 직접적인 영향을 미치며, 입력의 구조적·의미적 일관성을 더 유지하는 방법이 더 신뢰성 있고 해석 가능한 설명을 제공함을 확인했다.
조건부 입력을 학습에 포함시킨 모델는 분석에 대한 강건성이 향상되었고, 모델의 사전 지식과 가중치 초기화 의존도가 감소하여 학습 시점의 개선 전략이 효과적임을 검증했다.
최적화 목표에 대한 이론적 우려가 있었음에도 불구하고, PLS 방법은 더 나은 문제를 해결한 것이 아니라, 정확한 지표 기반으로 탐색 공간을 효과적으로 탐색함으로써 뛰어난 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.