QUICK REVIEW

[논문 리뷰] Adaptively Sparse Transformers

Gonçalo M. Correia, Vlad Niculae|arXiv (Cornell University)|2019. 08. 30.

Topic Modeling참고 문헌 35인용 수 19

한 줄 요약

이 논문은 표준 소프트맥스 어텐션을 학습 가능한 α -entmax로 대체하여 주어진 컨텍스트에 따라 동적으로 변하는 희소성 구조를 가진 어텐션 헤드를 가능하게 하는 적응형 희소 트랜스포머를 소개한다. 각 헤드별로 자동으로 α 파라미터를 학습함으로써 정확도를 유지하면서도 더 높은 해석 가능성과 헤드 다양성을 달성하였으며, 더 깊은 층에서는 더 밀도 높은 어텐션 패턴을 선호하고, 특수화된 행동이 자연스럽게 나타나는 경향을 보였다.

ABSTRACT

Attention mechanisms have become ubiquitous in NLP. Recent architectures, notably the Transformer, learn powerful context-aware word representations through layered, multi-headed attention. The multiple heads learn diverse types of word relationships. However, with standard softmax attention, all attention heads are dense, assigning a non-zero weight to all context words. In this work, we introduce the adaptively sparse Transformer, wherein attention heads have flexible, context-dependent sparsity patterns. This sparsity is accomplished by replacing softmax with $α$-entmax: a differentiable generalization of softmax that allows low-scoring words to receive precisely zero weight. Moreover, we derive a method to automatically learn the $α$ parameter -- which controls the shape and sparsity of $α$-entmax -- allowing attention heads to choose between focused or spread-out behavior. Our adaptively sparse Transformer improves interpretability and head diversity when compared to softmax Transformers on machine translation datasets. Findings of the quantitative and qualitative analysis of our approach include that heads in different layers learn different sparsity preferences and tend to be more diverse in their attention distributions than softmax Transformers. Furthermore, at no cost in accuracy, sparsity in attention heads helps to uncover different head specializations.

연구 동기 및 목표

표준 소프트맥스 기반 트랜스포머에서 모든 어텐션 헤드가 밀도 높은 구조를 가지며 모든 컨텍스트 단어에 비영인 가중치를 할당함에 따라 발생하는 해석 가능성 부족과 헤드 특수화 부족 문제를 해결하기 위해.
컨텍스트에 따라 집중형(희소) 또는 광범위형(밀도) 어텐션 패턴 간에 동적으로 전환할 수 있도록 어텐션 헤드를 가능하게 하여 모델의 해석 가능성을 향상시키기 위해.
모델의 각 헤드와 컨텍스트에 맞게 적응하는, 미분 가능한 학습 가능한 메커니즘을 개발하여 수동으로 하이퍼파라미터를 조정할 필요 없이 어텐션 희소성을 제어하기 위해.
기계 번역과 같은 시퀀스 모델링 작업에서 적응형 희소성이 헤드 특수화와 해석 가능성 향상에 기여하는지 경험적으로 검증하기 위해.
성능 저하 없이도 희소성을 도입할 수 있음을 보여주어 정확도를 유지하거나 略로 향상시키는 것

제안 방법

표준 소프트맥스 어텐션을 소프트맥스의 미분 가능한 일반화인 α -entmax로 대체하여, 낮은 점수를 받는 토큰에 대해 정확한 0 어텐션 가중치를 허용한다.
각 어텐션 헤드별로 커브성과 희소성의 정도를 제어하는 학습 가능한 α 파라미터를 도입하여, 밀도 높은 구조와 희소한 구조 사이에서 동적으로 적응할 수 있도록 한다.
기울기 기반 최적화를 통해 모델과 α 파라미터를 동시에 학습시켜 수동 하이퍼파라미터 검색이 불필요해지도록 한다.
전방 및 역방향 전파 동안 효율적으로 α -entmax를 계산하기 위해 이분법을 적용하여, 유지 가능한 미분 가능성과 확장성을 확보한다.
표준 트랜스포머 아키텍처를 기반으로 기계 번역 작업에서 모델을 엔드 투 엔드로 훈련시키며, 어텐션 헤드가 자동으로 다양한 희소성 패턴을 학습하도록 한다.
층과 헤드 간의 어텐션 분포를 분석하여 특수화 패턴과 해석 가능성 향상 여부를 확인한다.

실험 결과

연구 질문

RQ1학습 가능한 적응형 희소성이 성능 저하 없이 트랜스포머 모델의 해석 가능성을 향상시킬 수 있는가?
RQ2트랜스포머의 서로 다른 층에 위치한 어텐션 헤드들은 서로 다른 희소성 선호도를 가지는가? 만약 그렇다면, 이러한 선호도는 모델의 깊이와 어떻게 관련이 있는가?
RQ3적응형 α -entmax 어텐션은 표준 소프트맥스 어텐션보다 더 다양한 특수화된 헤드 행동을 이끌 수 있는가?
RQ4헤드별로 자동으로 α 파라미터를 학습하는 방식이 고정된 희소성 또는 고정된 α 설정보다 더 나은 헤드 특수화를 가능하게 하는가?
RQ5고정된 스파닝을 가진 트랜스포머와 달리, 비연속적이고 컨텍스트에 의존적인 동적 희소 패턴이 나타날 수 있는가?

주요 결과

적응형 희소 트랜스포머에서 더 깊은 층의 헤드들은 평균적으로 더 밀도 높은 어텐션 패턴을 보이며, 이는 적응형 스팬 트랜스포머의 연구 결과와 유사하다.
희소성 도입으로 인한 성능 손실 없이 표준 소프트맥스 트랜스포머와 유사하거나 略로 향상된 번역 정확도를 달성하였다.
어텐션 헤드들 간의 어텐션 분포에서 더 높은 다양성이 나타났으며, 헤드 간에 자연스럽게 다른 희소성 패턴이 부각되었다.
모델는 더 선명하고 더 해석 가능한 헤드 행동, 예를 들어 위치 기반 어텐션과 서브워드 결합을 더 명확하게 드러내었으며, 소프트맥스 기반 모델보다 더 명확한 정의를 가졌다.
희소성이 헤드 특수화를 더 명확히 드러내었으며, 문법적 의존성이나 희귀어에 집중하는 헤드들이 더 줄어든 모호성과 함께 나타났다.
α의 자동 학습을 통해 헤드들은 컨텍스트에 따라 피크형에서 평탄한 형태로의 어텐션 형태를 동적으로 조정할 수 있었으며, 이는 모델의 표현력 향상에 기여하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.