[논문 리뷰] BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling
BERTIN은 perplexity 기반 샘플링이 mC4-es에서 50M 문서 하위 집합을 생성하여 스페인어 RoBERTa-base 모델을 효율적으로 사전훈련하고 MLM 및 하류 작업 성능에서 경쟁력을 갖출 수 있음을 보여준다.
The pre-training of large language models usually requires massive amounts of resources, both in terms of computation and data. Frequently used web sources such as Common Crawl might contain enough noise to make this pre-training sub-optimal. In this work, we experiment with different sampling methods from the Spanish version of mC4, and present a novel data-centric technique which we name $ extit{perplexity sampling}$ that enables the pre-training of language models in roughly half the amount of steps and using one fifth of the data. The resulting models are comparable to the current state-of-the-art, and even achieve better results for certain tasks. Our work is proof of the versatility of Transformers, and paves the way for small teams to train their models on a limited budget. Our models are available at this $\href{https://huggingface.co/bertin-project}{URL}$.
연구 동기 및 목표
- 고품질의 모노링구얼 스페인어 언어 모델을 학습하는 데 필요한 데이터 양을 조사한다.
- 사전 훈련 중 데이터 효율성을 개선하기 위한 문서 샘플링 방법을 탐색한다.
- 데이터 품질과 샘플링이 학습 시간 및 최종 모델 성능에 미치는 영향을 평가한다.
- 재현성과 추가 연구를 가능하게 하기 위해 데이터셋과 코드를 공개한다.
제안 방법
- 스페인어 위키백과에서 학습된 5-gram KenLM 모델을 사용하여 스페인어 부분집합의 문서에 대해 perplexity를 계산한다.
- 중앙 퍼플렉시티 범위를 과샘플링하고 매우 낮거나 높은 perplexity 텍스트에 편향되지 않도록 두 개의 샘플링 함수(Stepwise 및 Gaussian)를 정의한다.
- 기준으로 무작위 샘플링과 비교하고 RoBERTa-base 스타일 MLM을 128- 및 512-토큰 시퀀스로 약 250k 단계 학습한다.
- 이전 RoBERTa 설정과 동일한 학습 하이퍼파라미터를 사용하고, 단계적 시퀀스 길이 확장 및 TPUv3-8 하드웨어를 활용한다.
- 다운스트림 스페인어 작업(POS, NER, PAWS-X, XNLI)에서 모델을 평가하고 서로 다른 시퀀스 길이에 대한 MLM 정확도를 보고한다.
실험 결과
연구 질문
- RQ1RQ1 잘 작동하는 모노링구얼 스페인어 언어 모델을 학습하기에 충분한 데이터 양은 어느 정도인가?
- RQ2RQ2 데이터가 풍부할 때 더 효율적인 학습을 가능하게 하는 문서를 어떻게 선택할 것인가?
- RQ3RQ3 데이터 품질이 학습 시간과 모델 성능에 어떤 영향을 미치는가?
주요 결과
| 방법 | MLM@128 | MLM@512 |
|---|---|---|
| Random | 65.20 | 59.07 |
| Stepwise | 65.34 | 67.44 |
| Gaussian | 66.08 | 68.73 |
- Gaussian perplexity sampling은 일반적으로 작업 전반에서 더 일관되고 강력한 성능을 제공한다.
- 모든 샘플링 방법이 여러 하류 작업에서 무작위 샘플링보다 우수하며, Gaussian -512가 강력한 결과를 달성한다.
- Gaussian -128의 MLM 정확도는 66.08이고 Gaussian -512는 68.73이며, 512 시퀀스 길이에서 128보다 높다.
- 베이스라인과 비교하여 Gaussian 및 Stepwise 샘플링은 특정 구성에서 NER 및 PAWS-X에서 경쟁력 있거나 우수한 결과를 달성한다.
- 약 50M 문서(~1TB에서 서브샘플링 후 약 200GB)에 대해 RoBERTa-base 스페인어 모델을 학습하면 TPUv3-8에서 대략 일주일 내에 경쟁력 있는 결과를 얻을 수 있다.
- 본 연구는 perplexity 기반 샘플링과 모델 학습을 재현할 수 있는 공개 데이터셋과 코드를 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.