[논문 리뷰] Mixout: Effective Regularization to Finetune Large-scale Pretrained Language Models
Mixout 정규화는 사전 학습된 모델을 향한 L2 패널티를 적응적으로 조정하여 소규모 데이터셋에서 대형 사전 학습 언어 모델을 미세조정할 때 안정성과 평균 dev 점수를 향상시킨다.
In natural language processing, it has been observed recently that generalization could be greatly improved by finetuning a large-scale language model pretrained on a large unlabeled corpus. Despite its recent success and wide adoption, finetuning a large pretrained language model on a downstream task is prone to degenerate performance when there are only a small number of training instances available. In this paper, we introduce a new regularization technique, to which we refer as "mixout", motivated by dropout. Mixout stochastically mixes the parameters of two models. We show that our mixout technique regularizes learning to minimize the deviation from one of the two models and that the strength of regularization adapts along the optimization trajectory. We empirically evaluate the proposed mixout and its variants on finetuning a pretrained language model on downstream tasks. More specifically, we demonstrate that the stability of finetuning and the average accuracy greatly increase when we use the proposed approach to regularize finetuning of BERT on downstream tasks in GLUE.
연구 동기 및 목표
- 대규모 사전 학습 언어 모델의 소규모 다운스트림 데이터셋에서 미세조정을 안정화해야 할 필요성에 대한 동기를 부여한다.
- Mixout을 사전 학습 매개변수 벡터를 편향시키는 적응형 정규화자로 도입한다.
- Mixout가 사전 학습 매개변수 방향으로 L2 정규화로 작용한다는 이론적 타당성을 제공한다.
- MNIST 유사 설정과 GLUE 작업에 대한 BERT-LARGE 미세조정에서 Mixout를 경험적으로 평가하여 안정성과 성능을 평가한다.
- 다양한 제거 실험(ablation)을 통해, Dropout 및 다른 정규화 기법과의 비교를 통해 이점들을 이해한다.
제안 방법
- Mixout를 Bernoulli 마스크를 통해 현재 매개변수와 사전 학습 대상 매개변수의 무작위 혼합으로 정의한다.
- Mixout가 마스크 확률 p에 의해 제어되는 사전 학습 매개변수를 향한 적응형 L2 패널티에 해당함을 보인다.
- 기대 손실을 한정하고 Mixout를 L2 정규화 항과 연결하는 이론적 결과(Theorem 1 및 Corollary 1.1)를 제공한다.
- 최종 출력 층은 규제하지 않는 한편, 사전 학습 층에서 Dropout을 Mixout으로 대체하여 사전 학습된 모델에 Mixout를 적용한다.
- 합성 데이터(MNIST 유사) 및 실제 NLP 미세조정(BERT-LARGE를 GLUE에서) 설정에서 안정성과 dev 점수의 향상을 보여주기 위해 실험적 검증을 수행한다.
실험 결과
연구 질문
- RQ1Mixout가 미세조정 도중에 사전 학습 매개변수 벡터 방향으로 이론적으로 타당한 적응적 정규화를 제공하는가?
- RQ2Mixout가 표준 Dropout 및 가중치 감소와 비교해 미세조정 안정성과 다운스트림 작업의 평균 dev 성능에 어떤 차이가 있는가?
- RQ3 Mixout가 작은 데이터셋에서 대형 사전 학습 모델을 미세조정할 때 퇴행적 미세조정 결과를 줄이고 무작위 재시작에 대한 강건성을 개선할 수 있는가?
- RQ4미세조정 중 Mixout가 사전 학습 층과 비사전 학습 출력 층에 미치는 영향은 무엇인가?
- RQ5합성 MNIST 유사 데이터 대 GLUE 작업과 같은 다양한 작업 유형 및 데이터 규模에서 효과적인가?
주요 결과
- Mixout는 사전 학습 매개변수를 향한 적응형 L2 정규화로 작용하며, 힘은 혼합 확률 p에 따라 증가한다.
- MNIST 유사 실험에서 Mixout는 Dropout보다 미세조정된 가중치를 사전 학습 가중치에 더 가깝게 유지하여 이론적 주장을 검증한다.
- 작은 GLUE 작업 하위집합에서 Mixout로 BERT-LARGE를 미세조정하면 재현 가능한 degenerate(확률 수준의) 결과가 줄고 작업들 간 평균 dev 점수가 증가한다.
- 절삭(ablation) 전반에 걸쳐 Mixout는 Dropout에 비해 안정성과 하이퍼파라미터(p)에 대한 강건성을 향상시키고 특히 데이터가 적은 규模에서 이러한 차이가 두드러진다.
- 사전 학습 가중치에 가중치 감소를 결합하면 여러 작업에서 평균 및 최댓값 dev 점수에서 추가 이득이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.