QUICK REVIEW

[논문 리뷰] Understanding the Difficulty of Training Transformers

Liyuan Liu, Xiaodong Liu|arXiv (Cornell University)|2020. 04. 17.

Topic Modeling참고 문헌 38인용 수 28

한 줄 요약

이 논문은 트랜스포머에서의 훈련 불안정성이 잔차 브랜치에 대한 과도한 의존성에서 기인하며, 이는 매개변수의 변동을 증폭시킨다고 규명한다. 이를 해결하기 위해 저자는 초기 훈련 단계에서 잔차 의존성을 줄여 안정성을 향상시키고, 이후에 모델 용량을 해제하는 적응형 초기화 방법인 Admin을 제안한다. 이로써 72층 트랜스포머를 사용한 WMT’14 En-Fr 번역 작업에서 최신 기준 성능을 달성하며, BLEU 점수 43.80을 기록한다.

ABSTRACT

Transformers have proved effective in many NLP tasks. However, their training requires non-trivial efforts regarding designing cutting-edge optimizers and learning rate schedulers carefully (e.g., conventional SGD fails to train Transformers effectively). Our objective here is to understand $ extit{what complicates Transformer training}$ from both empirical and theoretical perspectives. Our analysis reveals that unbalanced gradients are not the root cause of the instability of training. Instead, we identify an amplification effect that influences training substantially -- for each layer in a multi-layer Transformer model, heavy dependency on its residual branch makes training unstable, since it amplifies small parameter perturbations (e.g., parameter updates) and results in significant disturbances in the model output. Yet we observe that a light dependency limits the model potential and leads to inferior trained models. Inspired by our analysis, we propose Admin ($ extbf{Ad}$aptive $ extbf{m}$odel $ extbf{in}$itialization) to stabilize stabilize the early stage's training and unleash its full potential in the late stage. Extensive experiments show that Admin is more stable, converges faster, and leads to better performance. Implementations are released at: https://github.com/LiyuanLucasLiu/Transforemr-Clinic.

연구 동기 및 목표

트랜스포머가 NLP 과업에서 성공을 거두었음에도 불구하고 훈련이 어려운 이유를 이해하는 것.
균형 잡히지 않은 기울기 또는 기타 요인들이 훈련 불안정성의 주요 원인인지 조사하는 것.
특히 잔차 브랜치 의존성과 같은 구조적 설계 선택이 훈련 안정성과 모델 용량에 미치는 영향을 규명하는 것.
후기 단계에서 모델 잠재력 손실 없이 초기 훈련을 안정화할 수 있는 방법을 개발하는 것.
특히 장거리 번역 과업에서 깊은 트랜스포머 아키텍처에서 최신 기준 성능을 달성하는 것.

제안 방법

저자는 각 트랜스포머 레이어가 잔차 브랜치에 얼마나 의존하는지 분산 비율을 사용해 분석하며, 의존성을 Var[f(x)] / Var[x + f(x)]로 정의한다. 여기서 f(x)는 잔차 출력이다.
Post-LN과 Pre-LN 트랜스포머 아키텍처를 비교하여, Post-LN 레이어가 더 강한 잔차 의존성을 가지며, 이는 매개변수 갱신에 의해 불안정성을 유발함을 보여준다.
저자는 Admin(Adaptive Model Initialization)을 제안한다. 이는 초기화 단계에서 잔차 연결의 스케일을 동적으로 조정하여 초기 훈련 단계에서 의존성을 줄이는 방식이다.
Admin은 초기에는 잔차 갱신을 억제하도록 설정된 학습 가능한 스케일링 인자를 사용하며, 훈련이 진행됨에 따라 점차 증가하여 모델 용량을 해제한다.
이 방법은 모델 초기화 단계에 적용되며, 추가 하이퍼파rameter나 아키텍처 변경 없이 작동한다.
실험은 IWSLT’14 De-En, WMT’14 En-De, WMT’14 En-Fr에 대해 수행되었으며, 72층 모델 포함 다양한 깊이 설정을 포함한다.

실험 결과

연구 질문

RQ1균형 잡히지 않은 기울기 외에 트랜스포머에서 훈련 불안정성의 원인이 되는 구조적 요인은 무엇인가?
RQ2기울기 행동이 유사한데도 Post-LN 훈련이 Pre-LN 훈련보다 더 쉽게 발산하는 이유는 무엇인가?
RQ3매개변수의 변동이 훈련 중에 전파될 때 잔차 브랜치에 대한 의존성은 어떤 영향을 미치는가?
RQ4모델 용량을 손상시키지 않고 초기화 단계에서 잔차 의존성을 제어함으로써 깊은 트랜스포머 훈련을 안정화시킬 수 있는가?
RQ5적응형 초기화 방법이 깊은 아키텍처에서 Post-LN 및 Pre-LN 기준 모델을 모두 능가할 수 있는가?

주요 결과

Post-LN 트랜스포머는 Pre-LN 버전보다 유의미하게 높은 잔차 의존성을 보이며, 이는 작은 매개변수 변동을 증폭시켜 훈련 불안정성을 유발한다.
Pre-LN 모델은 더 안정적이지만 약한 잔차 의존성으로 인해 모델 용량이 제한되어 성능이 열 劣하다.
Admin은 평가된 모든 데이터셋과 아키텍처에서 훈련을 안정화시키며, 이는 이전에 표준 방법으로 훈련에 실패했던 WMT’14 En-Fr의 72층 트랜스포머에도 적용 가능하다.
60층 인코더와 12층 디코더를 가진 WMT’14 En-Fr에서 Admin은 새로운 최신 기준 BLEU 점수 43.80을 달성한다.
Admin은 표준 Post-LN 및 Pre-LN 기준 모델뿐 아니라 사전 학습된 T5 모델을 모두 능가하며, 전체 모델 잠재력을 해방시킬 수 있음을 입증한다.
추가 하이퍼파rameter나 아키텍처 수정 없이도 더 빠른 수렴성과 더 나은 안정성을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.