[논문 리뷰] Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese
Mengzi는 103M 매개변수의 중국어 사전학습 모델 패밀리로 (판별적, 생성적, 금융 및 다중모달 버전) 구조를 바꾸지 않고도 신중하게 설계된 경량 사전학습 및 파인튜닝 전략으로 강력한 CLUE 성과를 달성합니다.
Although pre-trained models (PLMs) have achieved remarkable improvements in a wide range of NLP tasks, they are expensive in terms of time and resources. This calls for the study of training more efficient models with less computation but still ensures impressive performance. Instead of pursuing a larger scale, we are committed to developing lightweight yet more powerful models trained with equal or less computation and friendly to rapid deployment. This technical report releases our pre-trained model called Mengzi, which stands for a family of discriminative, generative, domain-specific, and multimodal pre-trained model variants, capable of a wide range of language and vision tasks. Compared with public Chinese PLMs, Mengzi is simple but more powerful. Our lightweight model has achieved new state-of-the-art results on the widely-used CLUE benchmark with our optimized pre-training and fine-tuning techniques. Without modifying the model architecture, our model can be easily employed as an alternative to existing PLMs. Our sources are available at https://github.com/Langboat/Mengzi.
연구 동기 및 목표
- 더 큰 모델과 동일하거나 더 적은 컴퓨팅 자원을 요구하는 효율적이고 경량의 중국어 사전학습 모델을 추진합니다.
- 모델 크기를 늘리지 않으면서 용량을 향상시키는 사전학습 목표와 최적화 전략을 설계하고 평가합니다.
- 배포가 용이한 Mengzi 패밀리(분류형, 생성형, 도메인 특화, 다중모달)를 출시합니다.
- 중국어의 언어 이해 및 생성 작업에서 강력한 성능을 입증합니다.
제안 방법
- 백본은 12개 층, 768 은닉 크기, 103M 매개변수를 가진 RoBERTa 기반 Mengzi입니다 (Mengzi-BERT-base).
- 사전학습은 21,128-토큰 어휘를 가진 마스킹된 언어 모델링(MLM)을 300GB 규모의 중국어 말뭉치(Wikipedia, News, Common Crawl)에서 사용합니다.
- LAMB 옵티마이저를 사용한 2단계 혼합 배치 사전학습; 처음 9/10 에포크는 시퀀스 길이 128, 마지막 1/10 에포크는 길이 512를 사용합니다; 배치 크기는 16384 및 32768입니다.
- 표현력을 높이기 위해 언어학적으로 동기부여된 목표(POS/NE 시퀀스 레이블링)와 문장 순서 예측(SOP)을 포함합니다.
- 학습 안정화와 효율성 향상을 위한 다이나믹 그라디언트 보정을 도입합니다.
- 파인튜닝은 지식 증류, 전이 학습, 선택 평활화, 적대적 학습, 데이터 증강과 같은 전략을 탐구합니다.
실험 결과
연구 질문
- RQ1구조적 변화 없이 사전학습 목표와 학습 절차를 최적화하여 103M 매개변수의 중국어 PLM이 더 큰 모델을 능가할 수 있습니까?
- RQ2언어학적 정보에 기반한 목표와 학습 역학이 중국어 GLUE 유사 작업 및 MRC 벤치마크의 성능을 크게 향상시킵니까?
- RQ3하향식 파인튜닝 전략(증류, 전이 학습, 평활화, 적대적 학습, 증강)이 작업 전반의 성능에 어떻게 영향을 미칩니까?
- RQ4실제 중국어 NLP 작업에서 Mengzi 변형들(분류형, 생성형, 금융 도메인, 다중모달)의 실용적 영향과 배포 용이성은 무엇입니까?
주요 결과
- Mengzi는 CLUE 벤치마크에서 강력한 성과를 달성하며 비슷한 규모의 기준 모델은 물론 일부 설정에서 더 큰 중국어 모델을 능가합니다.
- 103M Mengzi-BERT-base 변형은 여러 CLUE 하위작업에서 BERT 및 RoBERTa 기준선 대비 향상을 보입니다.
- 언어학적으로 주도된 학습 목표와 다이나믹 그래디언트 보정은 사전학습에서 주목할 만한 성능 향상에 기여합니다.
- 지식 증류, 전이 학습, 선택 평활화, 적대적 학습, 데이터 증강과 같은 파인튜닝 기법은 다운스트림 작업에서 추가 정확도 향상을 가져옵니다.
- Mengzi 릴리시는 Mengzi-BERT-base, Mengzi-BERT-base-fin, Mengzi-T5-base, Mengzi-Oscar-base를 포함하며 텍스트 전용, 생성형, 금융 도메인, 다중모달 기능을 가능하게 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.