[논문 리뷰] DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing
DeBERTaV3는 MLM을 RTD로 교체하고 gradient-disentangled embedding sharing (GDES)를 도입하여 ELECTRA-식 사전학습과 DeBERTa의 disentangled attention을 결합함으로써 유사한 모델 구조의 PLM들에 대해 GLUE, SQuAD v2.0, 및 교차 언어 XNLI에서 SOTA를 달성합니다.
This paper presents a new pre-trained language model, DeBERTaV3, which improves the original DeBERTa model by replacing mask language modeling (MLM) with replaced token detection (RTD), a more sample-efficient pre-training task. Our analysis shows that vanilla embedding sharing in ELECTRA hurts training efficiency and model performance. This is because the training losses of the discriminator and the generator pull token embeddings in different directions, creating the "tug-of-war" dynamics. We thus propose a new gradient-disentangled embedding sharing method that avoids the tug-of-war dynamics, improving both training efficiency and the quality of the pre-trained model. We have pre-trained DeBERTaV3 using the same settings as DeBERTa to demonstrate its exceptional performance on a wide range of downstream natural language understanding (NLU) tasks. Taking the GLUE benchmark with eight tasks as an example, the DeBERTaV3 Large model achieves a 91.37% average score, which is 1.37% over DeBERTa and 1.91% over ELECTRA, setting a new state-of-the-art (SOTA) among the models with a similar structure. Furthermore, we have pre-trained a multi-lingual model mDeBERTa and observed a larger improvement over strong baselines compared to English models. For example, the mDeBERTa Base achieves a 79.8% zero-shot cross-lingual accuracy on XNLI and a 3.6% improvement over XLM-R Base, creating a new SOTA on this benchmark. We have made our pre-trained models and inference code publicly available at https://github.com/microsoft/DeBERTa.
연구 동기 및 목표
- RTD와 DeBERTa를 결합하여 사전학습 효율성과 다운스트림 성능을 향상시키는지 조사합니다.
- ELECTRA-식 설정에서 학습을 저해하는 embedding-sharing 충돌을 식별하고 해결합니다.
- 생성자와 판별기 목표의 균형을 맞추는 gradient-disentangled embedding sharing (GDES) 전략을 제안합니다.
- 유사한 모델 규모에서 GLUE, SQuAD v2.0, 다국어 XNLI 벤치마크에서 새로운 SOTA를 확립하기 위해 DeBERTaV3 변형을 평가합니다.
제안 방법
- DeBERTa에서 MLM을 RTD로 교체하여 DeBERTaV3를 형성합니다.
- 임베딩 공유 다이내믹스를 분석하고 표준 ES(Embedding Sharing)와 NES(No Embedding Sharing)의 한계를 증명합니다.
- E_G를 E_D와 공유하되 RTD로부터의 기울기가 stop-gradient 메커니즘을 통해 생성기 임베딩으로 흐르지 않도록 하는 Gradient-Disentangled Embedding Sharing(GDES)을 제안합니다. 이는 E_D = sg(E_G) + E_Delta로 구현됩니다.
- 감사차를 재매개변수화하여 E_D = sg(E_G) + E_Delta로 설정하고 E_Delta는 0으로 초기화되며 RTD를 통해서만 업데이트되며 E_G는 MLM을 통해 업데이트됩니다.
- 표준 DeBERTa 설정을 사용하여 Large, Base, Small, XSmall의 여러 모델 크기를 사전학습합니다. 데이터 160GB, 500k 스텝, 배치 크기 8192, AdamW 옵티마이저를 사용합니다.
- GLUE(8개 과제), MNLI, SQuAD v2.0, RACE, ReCoRD, SWAG, CoNLL-2003, XNLI에서 영어 및 다국어 설정에 걸쳐 평가합니다.
실험 결과
연구 질문
- RQ1MLM을 RTD로 교체하는 것이 DeBERTa의 사전학습 효율성과 다운스트림 NLU 성능을 향상시키는가?
- RQ2생성기와 판별기 간의 임베딩 공유가 학습 다이내믹스와 모델 품질에 어떤 영향을 미치는가?
- RQ3그래디언트 분리 공유(GDES)가 충돌하는 그레이디언트를 피하면서 임베딩 공유의 이점을 유지할 수 있는가?
- RQ4GLUE, MNLI, SQuAD v2.0, XNLI에서 DeBERTaV3와 mDeBERTaV3의 성능이 기본모델과 비교하여 어떤 이득을 제공하는가?
주요 결과
- RTD 기반의 DeBERTaV3가 MNLI 및 SQuAD v2.0에 대해 MLM 기반 DeBERTa보다 초기 비교에서 знач하게 우수하게 나타납니다.
- ELECTRA의 임베딩 공유(E S)는 생성기와 판별기의 목표 간의 으르렁거림으로 인해 학습 속도를 느리게 할 수 있으며; NES는 그래디언트 간섭을 피하지만 다운스트림 이점이 제한적입니다.
- GDES는 임베딩을 공유하면서도 생성기-판별기 간의 그래디언트를 분리시키므로 ES와 NES보다 더 빠른 수렴과 더 높은 다운스트림 성능을 제공합니다.
- DeBERTaV3 Large는 GLUE 평균 91.37%를 달성하여 DeBERTa 및 ELECTRA 기본 모델 대비 각각 1.37포인트, 1.91포인트를 상회합니다.
- mDeBERTaV3 Base는 79.8%의 평균 XNLI 정확도를 달성하여 XLM-R Base 및 mT5 Base보다 각각 3.6포인트, 4.4포인트 더 나아가더니 동급 규모의 다국어 모델에 대한 새로운 SOTA를 확립합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.