QUICK REVIEW

[논문 리뷰] Are Sixteen Heads Really Better than One?

Paul Michel, Omer Levy|arXiv (Cornell University)|2019. 05. 25.

Topic Modeling참고 문헌 33인용 수 45

한 줄 요약

본 논문은 테스트 시점에 많은 트랜스포머 어텐션 헤드를 가지치면 성능 저하가 거의 없거나 없어도 되며, 때로는 레이어를 하나의 헤드로 축소하고 추론 속도를 크게 향상시킬 수 있음을 보여준다.

ABSTRACT

Attention is a powerful and ubiquitous mechanism for allowing neural models to focus on particular salient pieces of information by taking their weighted average when making predictions. In particular, multi-headed attention is a driving force behind many recent state-of-the-art NLP models such as Transformer-based MT models and BERT. These models apply multiple attention mechanisms in parallel, with each attention "head" potentially focusing on different parts of the input, which makes it possible to express sophisticated functions beyond the simple weighted average. In this paper we make the surprising observation that even if models have been trained using multiple heads, in practice, a large percentage of attention heads can be removed at test time without significantly impacting performance. In fact, some layers can even be reduced to a single head. We further examine greedy algorithms for pruning down models, and the potential speed, memory efficiency, and accuracy improvements obtainable therefrom. Finally, we analyze the results with respect to which parts of the model are more reliant on having multiple heads, and provide precursory evidence that training dynamics play a role in the gains provided by multi-head attention.

연구 동기 및 목표

학습된 트랜스포머 모델에서 다중 헤드 어텐션의 필요성에 대한 경험적 연구를 동기 부여한다.
기계 번역과 자연어 추론에서 성능에 필수적인 어텐션 헤드의 수를 정량화한다.
재학습 없이 덜 중요한 헤드를 식별하고 제거하는 가지치기 전략을 개발한다.
학습 역학 전반에서 Enc-Enc, Enc-Dec, Dec-Dec 등 서로 다른 어텐션 구성요소에 대한 헤드 가지치기의 영향을 분석한다.

제안 방법

다중-헤드 어텐션 내에서 개별 헤드를 비활성화하는 마스킹 메커니즘을 정의한다.
단일 헤드를 제거한 경우와 전체 레이어를 하나의 헤드로 축소한 경우의 성능을 평가한다.
포워드/백워드 패스에 의해 추정된 헤드 마스킹에 대한 손실의 기대 민감도에 기반한 중요도 점수 I_h를 제안한다.
I_h(또는 프록시)로 헤드를 순서화하고 단계적으로 가지치기를 수행하여 누적 효과를 연구한다.
두 가지 확립된 모델에서 가지치기 효과를 비교한다: WMT 영어→프랑스어 트랜스포머와 MNLI의 BERT 베이스.
GPU에서 성능(BLEU, 정확도) 및 추론 속도 향상을 측정한다.

실험 결과

연구 질문

RQ1MT와 NLI 작업에서 학습된 트랜스포머 기반 모델의 개별 어텐션 헤드가 얼마나 중요한가?
RQ2레이어를 하나의 헤드로 축소해도 성능에 해가 없고, 어떤 레이어가 이러한 축소를 저항하는가?
RQ3MT 모델에서 인코더-디코더 대비 자기 어텐션 구성 요소에 대한 헤드 가지치기의 효과는 무엇인가?
RQ4훈련 중 헤드의 중요도가 어떻게 진화하며 언제 헤드가 중요한지 혹은 중복된 것으로 간주되는가?
RQ5헤드를 가지치기함으로써 얻는 실용적 효율성 이점(속도/메모리)은 무엇이며, 이러한 이점이 가장 뚜렷한 조건은 무엇인가?

주요 결과

대부분의 어텐션 헤드는 테스트 시점에 제거해도 성능 저하가 크지 않다.
일부 레이어는 헤드를 하나로 줄여도 큰 영향이 없지만, 인코더-디코더 어텐션은 대개 더 많은 헤드가 필요하다.
중요도 프록시를 이용한 반복적인 가지치기는 WMT에서 약 20%, BERT에서 약 40%까지 헤드를 제거해도 눈에 띄는 감소가 없고, 더 많이 가지치면 급격한 하락이 발생한다.
인코더-디코더 어텐션은 자기 어텐션보다 가지치기에 더 민감하며 다중-헤드 의존성이 차이가 있음을 시사한다.
훈련 초기에 헤드가 더 명확하게 중요해지며, 나중에 가지치기 허용 체제가 나타난다는 것을 보인다.
가지치기는 주목할 만한 효율 향상을 낳으며, 배치 크기가 큰 경우 헤드의 50%를 제거하면 BERT의 추론이 최대 17.5% 빨라지며, MHA에 할당된 매개변수는 대략 전체 매개변수의 3분의 1 정도이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.