QUICK REVIEW

[논문 리뷰] Multi-head or Single-head? An Empirical Comparison for Transformer Training

Liyuan Liu, Jialu Liu|arXiv (Cornell University)|2021. 06. 17.

Natural Language Processing Techniques참고 문헌 29인용 수 23

한 줄 요약

이 논문은 다중 헤드 어텐션의 우월성이 여러 위치에 주목하는 능력에서 비롯된다는 기존의 믿음을 도전하며, 오히려 훈련 안정성이 핵심적인 이점임을 입증한다. 얕은 다중 헤드 트랜스포머를 더 깊은 싱글 헤드 변형으로 대체함으로써, 적응형 초기화를 사용해 훈련을 안정화시키면, 초모수 조정 없이도 다양한 작업에서 일관된 성능 향상을 달성한다. 이는 훈련이 안정적일 경우 깊이가 성능 향상의 진정한 원인임을 증명한다.

ABSTRACT

Multi-head attention plays a crucial role in the recent success of Transformer models, which leads to consistent performance improvements over conventional attention in various applications. The popular belief is that this effectiveness stems from the ability of jointly attending multiple positions. In this paper, we first demonstrate that jointly attending multiple positions is not a unique feature of multi-head attention, as multi-layer single-head attention also attends multiple positions and is more effective. Then, we suggest the main advantage of the multi-head attention is the training stability, since it has less number of layers than the single-head attention, when attending the same number of positions. For example, 24-layer 16-head Transformer (BERT-large) and 384-layer single-head Transformer has the same total attention head number and roughly the same model size, while the multi-head one is significantly shallower. Meanwhile, we show that, with recent advances in deep learning, we can successfully stabilize the training of the 384-layer Transformer. As the training difficulty is no longer a bottleneck, substantially deeper single-head Transformer achieves consistent performance improvements without tuning hyper-parameters.

연구 동기 및 목표

다중 헤드 어텐션의 성공 원인이 여러 위치에 주목하는 능력인지, 아니면 훈련 안정성 때문인지 조사하기.
동일한 모델 크기와 계산 복잡도 조건에서 얕은 다중 헤드 트랜스포머와 더 깊은 싱글 헤드 변형 간의 성능을 비교하기.
최근의 훈련 안정화 기법이 더 깊은 싱글 헤드 트랜스포머가 표준 다중 헤드 아키텍처를 능가하도록 할 수 있는지 평가하기.
더 깊은 모델에서의 성능 향상 원인이 아키텍처의 깊이인지, 다중 헤드 메커니즘 자체 때문인지 결정하기.
동일한 모델 크기 조건에서 깊은 싱글 헤드 모델과 얕은 다중 헤드 모델 간의 추론 효율성과 훈련 수렴 속도를 평가하기.

제안 방법

표준 다중 헤드 트랜스포머(예: BERT-base, BERT-large)를 동일한 총 어텐션 헤드 수와 모델 크기를 유지하면서 더 깊은 싱글 헤드 변형으로 재구성하기.
극도로 깊은 싱글 헤드 트랜스포머(예: 384층 모델)의 훈련을 안정화하기 위해 적응형 모델 초기화(Admin) 기법 사용하기.
깊은 싱글 헤드 모델과 얕은 다중 헤드 모델을 동일한 초모수 조건에서 훈련하여 깊이와 아키텍처의 영향을 분리해 분석하기.
기계 번역 및 BERT 사전학습 작업을 통해 일반화 능력과 강건성을 비교하기 위해 성능 측정하기.
동일 하드웨어에서 추론 속도와 훈련 효율성(GPU 시간)을 측정하여 실질적 구현 특성 비교하기.
다양한 헤드 수를 고려한 수렴 곡선과 성능 향상 정도를 시각화하여 아키텍처의 깊이가 미치는 영향 분석하기.

실험 결과

연구 질문

RQ1여러 위치에 동시에 주목하는 것이 다중 헤드 어텐션의 유일한 이점인지, 아니면 깊은 싱글 헤드 어텐션도 동일한 효과를 낼 수 있는가?
RQ2다중 헤드 어텐션의 주요 이점이 여러 위치에 주목할 수 있는 능력 때문인지, 아니면 더 나은 훈련 안정성 때문인지?
RQ3현대의 초기화 기법을 사용해 극도로 깊은 싱글 헤드 트랜스포머를 성공적으로 훈련시킬 수 있으며, 얕은 다중 헤드 대비 뛰어난 성능을 낼 수 있는가?
RQ4동일한 모델 크기 조건에서 깊은 싱글 헤드 모델과 얕은 다중 헤드 모델 간의 성능, 추론 속도, 훈련 효율성은 어떻게 비교되는가?
RQ5깊이에 기인한 성능 향상은 어텐션 헤드 수에 따라 달라지며, 이는 다양한 작업에서 일관된가?

주요 결과

384층의 깊은 싱글 헤드 트랜스포머가 초모수 조정 없이도 여러 NLP 작업에서 얕은 24층 다중 헤드 모델(예: BERT-large)을 능가하는 성능을 보였다.
성능 향상의 원인이 다중 헤드 메커니즘 자체 때문이 아니라, 훈련이 안정화된 상태에서 모델의 깊이가 증가했기 때문이었다.
적응형 초기화(Admin) 기법을 통해 384층 싱글 헤드 트랜스포머의 훈련을 안정화시킬 수 있었으며, 이는 표준 초기화 방식을 사용할 경우 발산하는 것을 방지했다.
동일한 모델 크기와 계산 복잡도를 유지함에도 불구하고, 깊은 싱글 헤드 트랜스포머가 얕은 다중 헤드 버전보다 더 빨리 수렴하고 더 높은 성능을 달성했다.
추론 속도는 깊은 싱글 헤드 모델과 얕은 다중 헤드 모델 간 거의 동일했으며, 배치 크기와 시퀀스 길이에 따라 약간의 이점이 나타났다.
성능 향상은 헤드 수가 많을수록 증가했으며, 이는 얕은 다중 헤드와 깊은 싱글 헤드 모델 간의 아키텍처적 차이가 향상의 핵심 요인임을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.