QUICK REVIEW

[논문 리뷰] On Identifiability in Transformers

Gino Brunner, Yang Liu|arXiv (Cornell University)|2019. 08. 12.

Topic Modeling참고 문헌 48인용 수 76

한 줄 요약

이 논문은 Transformers에서 주의 가중치와 토큰 임베딩의 identifiability를 분석하고, effective attention과 Hidden Token Attribution을 도입했으며, 맥락 혼합(context mixing)으로 인해 깊이가 깊어질수록 토큰 identity 보존이 충분하지 않음을 보여준다.

ABSTRACT

In this paper we delve deep in the Transformer architecture by investigating two of its core components: self-attention and contextual embeddings. In particular, we study the identifiability of attention weights and token embeddings, and the aggregation of context into hidden tokens. We show that, for sequences longer than the attention head dimension, attention weights are not identifiable. We propose effective attention as a complementary tool for improving explanatory interpretations based on attention. Furthermore, we show that input tokens retain to a large degree their identity across the model. We also find evidence suggesting that identity information is mainly encoded in the angle of the embeddings and gradually decreases with depth. Finally, we demonstrate strong mixing of input information in the generation of contextual embeddings by means of a novel quantification method based on gradient attribution. Overall, we show that self-attention distributions are not directly interpretable and present tools to better understand and further investigate Transformer models.

연구 동기 및 목표

주의 가중치가 모델 출력에 의해 고유하게 결정되는지 여부를 평가한다(주의 identifiability).
입력 토큰의 신원이 계층을 거치며 컨텍스트 임베딩에 지속되는지 평가한다(토큰 identifiability).
그래디언트 기반 기여도를 사용하여 컨텍스트가 숨겨진 임베딩으로 얼마나 섞이는지(context contribution)를 정량화한다.
주의 해석 가능성을 높이기 위한 도구를 제안한다(effective attention).
Transformer 계층을 통해 신원 정보와 컨텍스트가 어떻게 진화하는지에 대한 실증적 근거를 제공한다.

제안 방법

시퀀스 길이가 attention head 차원 dv를 초과할 때 non-identifiability를 보이기 위해 변환된 값 행렬 T = E W_V H의 랭크에 대한 이론적 상한을 도출한다.
LN(T)의 좌측 영공간(left null space)을 특성화하고 단순체 제약을 만족하는 LN(T)에 속하는 비자명한 Ã의 존재를 보증하여 주의 가중치의 비고유성을 시사한다.
출력에 영향을 주는 주의 구성요소를 분리하기 위해 effective attention A⊥ = A − ProjectionLN(T)(A)를 도입한다.
코사인 유사도와 L2 유사도를 이용하여 계층 간 숨겨진 임베딩에서 입력 토큰으로의 최근접 이웃 매핑으로 토큰 식별 가능성을 경험적으로 검증한다.
중간 임베딩에 대한 입력 토큰의 기여를 정량화하기 위해 그래디언트 기여도에 기반한 Hidden Token Attribution를 정의한다.
그래디언트 기반 분석을 사용하여 컨텍스트가 숨겨진 임베딩에 어떻게 기여하는지 연구하고 로컬 대 원거리 토큰 영향력을 정량화한다.

실험 결과

연구 질문

RQ1주어진 입력 시퀀스에 대해 Transformer 출력으로부터 주의 가중치 분포가 식별 가능한가?
RQ2맥락 임베딩이 계층 전반에 걸쳐 입력 토큰의 신원 정보를 보존하는가?
RQ3맥락이 숨겨진 임베딩으로 어떻게 집합되고, 깊이가 깊어질수록 토큰이 맥락과 얼마나 섞이는가?
RQ4원시 가중치를 넘어 주의를 더 잘 해석하기 위한 진단 도구를 개발할 수 있는가?
RQ5깊이가 증가함에 따라 토큰 임베딩에 대한 맥락 기여가 얼마나 로컬화되거나 글로벌해지는가?

주요 결과

시퀀스 길이가 attention head 차원을 초과할 때 주의 가중치는 식별 가능하지 않다; 동일한 출력을 산출하는 무한히 많은 주의 구성이 존재한다.
effective attention은 시퀀스 길이가 커질수록 원시 주의와 달라지며, 출력에 영향을 주는 요인을 보다 충실하게 진단한다.
입력 토큰은 대부분 계층 간 신원을 유지하며, 선형 매핑과 최근접 이웃 검색을 통해 특히 초기 계층에서 신원 정보를 회복할 수 있다.
신원 정보는 주로 임베딩 각도에 인코딩되며 더 깊은 계층에서 감소하므로 정확한 토큰 신원의 점진적 손실을 시사한다.
Hidden Token Attribution은 임베딩에서 토큰 정보와 맥락 정보의 강한 혼합을 보여주며, 맥락 집계는 주로 로컬이고 더 깊은 계층에서 더 먼 기여가 나타난다.
전반적으로 자기 주의 분포는 직접적으로 해석되지는 않으며, 이 논문은 트랜스포머 내부를 더 잘 이해하기 위한 도구를 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.