[논문 리뷰] Why are Adaptive Methods Good for Attention Models?
이 논문은 무한 꼬리의 그래디언트 노이즈가 SGD를 적응 방법에 비해 열등하게 만들 수 있음을 보이고, 클리핑 기반 분석과 ACClip를 도입하여 BERT와 같은 어텐션 모델의 최적화를 개선한다.
While stochastic gradient descent (SGD) is still the \emph{de facto} algorithm in deep learning, adaptive methods like Clipped SGD/Adam have been observed to outperform SGD across important tasks, such as attention models. The settings under which SGD performs poorly in comparison to adaptive methods are not well understood yet. In this paper, we provide empirical and theoretical evidence that a heavy-tailed distribution of the noise in stochastic gradients is one cause of SGD's poor performance. We provide the first tight upper and lower convergence bounds for adaptive gradient methods under heavy-tailed noise. Further, we demonstrate how gradient clipping plays a key role in addressing heavy-tailed gradient noise. Subsequently, we show how clipping can be applied in practice by developing an \emph{adaptive} coordinate-wise clipping algorithm (ACClip) and demonstrate its superior performance on BERT pretraining and finetuning tasks.
연구 동기 및 목표
- SGD가 어텐션 모델 학습(예: BERT)에서 적응 방법에 비해 성능이 떨어지는 이유를 조사한다.
- 관련 작업에서 그래디언트 노이즈 분포(무한 꼬리 분포, heavy-tailed)를 특성화한다.
- 무한 꼬리 노이즈 하에서 최적화를 안정화하는 클리핑 기반 알고리즘을 개발하고 분석한다.
- 향상된 BERT 프리트레이닝 및 파인튜닝을 위한 적응형 좌표별 클리핑 방법(ACClip)을 제안하고 검증한다.
제안 방법
- 무한 꼬리 특성을 확인하기 위해 ImageNet(ResNet)와 BERT 학습에서 그래디언트 노이즈 분포를 실험적으로 분석한다.
- 유계 α-모멘트(α in (1,2])를 사용한 무한 꼬리 노이즈 하에서의 적응형 그래디언트 방법의 이론적 수렴 경계.
- 무한 꼬리 노이즈 하에서 최적 수렴 속도를 얻기 위한 그래디언트 클리핑(GClip)의 도입 및 분석.
- 차원 의존성을 제거하기 위한 좌표별 클리핑(CClip)으로의 확장 및 온라인 모멘트 추정과 함께 적응형 좌표별 클리핑(ACClip) 개발.
- BERT 프리트레이닝 및 SQuAD v1.1 파인튜닝에서 ACClip의 실험적 평가를 통해 Adam 대비 개선을 보임.
실험 결과
연구 질문
- RQ1무한 꼬리 그래디언트 노이즈가 어텐션 모델 학습에서 SGD와 적응 방법 사이의 상대적 성능 차이를 설명하는가?
- RQ2그래디언트 클리핑이 수렴을 회복하고 무한 꼬리 노이즈 하에서 최적의 속도를 달성할 수 있는가?
- RQ3현실적인 고차원 노이즈 하에서 좌표별 클리핑이 전역 클리핑보다 더 나은가?
- RQ4적응형 좌표별 클리핑 알고리즘(ACClip)이 BERT 프리트레이닝 및 파인튜닝 작업에서 Adam보다 성능이 우수한가?
주요 결과
- BERT 프리트레이닝의 그래디언트 노이즈는 무한 꼬리이며, ImageNet/ResNet의 경우에는 분포가 잘 집중되어 있다.
- 클리핑된 그래디언트 방법(GClip)은 무한 꼬리 노이즈 하에서 최적 수렴 속도를 달성하고 학습을 안정화한다.
- 좌표별 클리핑(CClip)은 차원 의존성을 제거하고 전역 클리핑보다 우수할 수 있다.
- 온라인 모먼트 추정이 있는 적응형 클리핑(ACClip)은 모델 크기에 관계없이 BERT 프리트레이닝 및 SQuAD v1.1 파인튜닝에서 Adam을 능가한다.
- ACClip은 BERT Base 6/12 레이어 및 BERT Large 24 레이어에서 Adam보다 더 낮은 프리트레이닝 손실과 더 높은 마스크드-LM 정확도를 제공하며; ACClip은 또한 SQuAD EM/F1 점수를 향상시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.