Skip to main content
QUICK REVIEW

[논문 리뷰] Self-Attention Attribution: Interpreting Information Interactions Inside Transformer

Yaru Hao, Li Dong|arXiv (Cornell University)|2020. 04. 23.
Adversarial Robustness in Machine Learning참고 문헌 41인용 수 23
한 줄 요약

이 논문은 BERT와 같은 Transformer 모델 내부의 정보 상호작용을 해석하기 위해 통합 기울기 기반의 Self-Attention Attribution (AttAttr)를 소개한다. 이 방법은 주목할 만한 attention 헤드를 식별하고, 조합적 의존 관계를 시각화하기 위한 계층적 할당 트리를 구성하며, 효과적인 헤드 프루닝을 가능하게 하고, 모델 성능을 심각하게 떨어뜨리는 악성 트리거를 생성함으로써 모델이 부적절한 패턴에 과도하게 의존하고 있음을 드러낸다.

ABSTRACT

The great success of Transformer-based models benefits from the powerful multi-head self-attention mechanism, which learns token dependencies and encodes contextual information from the input. Prior work strives to attribute model decisions to individual input features with different saliency measures, but they fail to explain how these input features interact with each other to reach predictions. In this paper, we propose a self-attention attribution method to interpret the information interactions inside Transformer. We take BERT as an example to conduct extensive studies. Firstly, we apply self-attention attribution to identify the important attention heads, while others can be pruned with marginal performance degradation. Furthermore, we extract the most salient dependencies in each layer to construct an attribution tree, which reveals the hierarchical interactions inside Transformer. Finally, we show that the attribution results can be used as adversarial patterns to implement non-targeted attacks towards BERT.

연구 동기 및 목표

  • Transformer의 자기주의 주의를 통해 입력 토큰 간의 상호작용이 어떻게 이루어지는지에 대한 해석 가능성 부족 문제를 해결하기 위해.
  • 개별 토큰의 중요도를 넘어서 토큰 간 조합적 상호작용을 설명할 수 있는 방법을 개발하기 위해.
  • 할당 점수 기반으로 가장 영향력 있는 주의 헤드를 식별함으로써 성능 저하를 최소화하면서 모델 프루닝을 가능하게 하기 위해.
  • 층간 정보 흐름을 시각화할 수 있는 계층적 할당 트리를 구성하기 위해.
  • 할당 점수에서 악성 패턴을 발견하고 악용하여 모델의 내성에 대한 테스트를 수행하기 위해.

제안 방법

  • 최종 예측에 대한 각 주의 헤드의 기여도를 계산하기 위해 통합 기울기를 기반으로 한 AttAttr라는 자기주의 주의 할당 방법을 제안한다.
  • 주의 가중치에 통합 기울기를 적용하여, 모델의 결정 과정에서 각 주의 연결의 중요도를 반영하는 할당 점수를 계산한다.
  • 할당 점수를 활용해 각 층에서 가장 중요한 주의 헤드를 식별하고, 성능 저하를 최소화하면서 구조적인 헤드 프루닝을 가능하게 한다.
  • 가장 주목할 만한 의존 관계를 추출하고 층 간 정보 흐름을 계층적으로 시각화할 수 있는 할당 트리를 구성하기 위한 히우리스틱 알고리즘을 개발한다.
  • 최상위 할당 점수를 활용해 악성 트리거를 추출한다—특정 단어 패tern이 삽입될 경우 모델 정확도가 급격히 감소한다.
  • 할당 트리의 간선 기여도를 평가하기 위해 정량적 분석을 사용하여 BERT를 다양한 NLP 데이터셋에 대해 검증한다.

실험 결과

연구 질문

  • RQ1자기주의 주의 메커니즘 내에서 입력 토큰 간의 상호작용을 개별 토큰의 주목도를 넘어서 어떻게 해석할 수 있는가?
  • RQ2주의 가중치가 실제 모델 예측 기여도와 어느 정도 상관관계가 있는가?
  • RQ3할당 점수를 사용하여 성능 저하 없이 덜 중요한 주의 헤드를 식별하고 프루닝할 수 있는가?
  • RQ4모델의 조합적 추론을 반영하는 계층적 의존 구조(할당 트리)를 재구성할 수 있는가?
  • RQ5할당 점수로 식별된 가장 주목할 만한 상호작용 패턴을 활용해 효과적인 비대상 악성 공격을 만들 수 있는가?

주요 결과

  • MNLI 데이터셋에서 전제 문장에 상위 악성 트리거(‘with’와 ‘math’)를 삽입함으로써 포함성 정확도가 82.87%에서 0.8%로 감소하여 모델의 극도로 취약한 상태를 입증했다.
  • 상위 3개의 악성 트리거는 MNLI 및 SST-2의 모든 클래스 평균 정확도를 40个百分点 이상 감소시켜 모델이 부적절한 패턴에 광범위하게 의존하고 있음을 시사한다.
  • AttAttr 기반의 제안된 헤드 프루닝 방법은 타일러 전개 방법과 비교해 경쟁적인 성능을 보였으며, 프루닝 후 정확도 저하가 최소한이었다.
  • BERT에서 중요한 주의 헤드는 동일한 작업 및 데이터셋 간에 일관되게 나타나며, 안정적인 기능 역할을 수행하는 것으로 밝혀졌다.
  • AttAttr 점수로부터 구축한 할당 트리는 계층적 정보 흐름을 드러내었으며, 층 간 의존 관계가 어떻게 조합되는지를 보여주었다.
  • 주의 가중치 자체는 기여도의 신뢰할 수 있는 지표가 아니며, 일부 고가중치 연결은 예측에 거의 기여하지 않는다는 것이 밝혀졌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.