[논문 리뷰] Spanish Pre-trained BERT Model and Evaluation Data
본 논문은 스페인어 데이터로만 학습된 스페인어 BERT 모델과 GLUE-유사 스페인어 벤치마크(GLUES)를 제시하여 여러 작업에서 다국어 BERT 기준모델과 경쟁력 있거나 최첨단 성능을 보여준다. 또한 저자들은 모델, 학습 데이터 및 벤치마크를 공개한다.
The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.
연구 동기 및 목표
- 연구자들이 접근 가능한 스페인어 사전 학습된 BERT 모델을 제공한다.
- 평가 표준화를 위한 GLUE-유사 스페인어 NLP 태스크 모음을 구성한다.
- 스페인어 데이터로 미세조정된 순수 스페인어 BERT가 많은 태스크에서 다국어 BERT 기준모델보다 우수함을 입증한다.
- 사전 학습 데이터와 벤치마크를 커뮤니티에 공개한다.
제안 방법
- BERT-base 크기 모델(12 계층, 12 헤드, 768 히든)을 위키피디아와 OPUS 소스로부터 약 30억 개의 스페인어 단어로 학습시켜 대소문자 구분 버전(cased)과 소문자 구분 버전(uncased)을 생성한다.
- SentencePiece를 사용한 32K 어휘(31K 서브워드 + 1K 플레이스홀더)와 다이내믹 마스킹(10x), 전체 단어 마스킹을 적용한다.
- 두 단계 사전 학습: 900k 스텝을 2048 배치 크기/128 최대 길이로 수행한 후 나머지 스텝은 256 배치 크기/512 최대 길이로; 10000 스텝 워밍업; TPU v3-8에서 학습.
- XNLI, PAWS-X, CoNLL NER, UD POS, MLDoc, UD2.2 의존성 파싱, QA 데이터셋(MLQA, XQuAD, TAR)을 포함하는 스페인어 GLUE-유사 벤치마크인 GLUES를 구성한다.
- 표준 BERT 미세조정(Adam, 10% 워밍업, 긴 시퀀스에 대한 슬라이딩 윈도우)을 사용하여 태스크별 출력으로 미세조정하고, 태스크에 적합한 평가 지표로 평가한다.
실험 결과
연구 질문
- RQ1스페인어 데이터로 미세조정된 순수 스페인어 BERT 모델이 스페인어 NLP 태스크에서 다국어 BERT 기준모델보다 우수한가?
- RQ2GLUE-유사 스페인어 벤치마크(GLUES)가 평가의 표준화를 이뤄 스페인어 NLP 발전을 촉진할 수 있는가?
- RQ3QA, NER, POS 등 태스크에서 순수 스페인어 BERT와 다국어 모델의 상대적 강점과 한계는 무엇인가?
주요 결과
| 모델 | XNLI | PAWS-X | NER | POS | MLDoc |
|---|---|---|---|---|---|
| Best mBERT | 78.50 a | 89.00 b | 87.38 a | 97.10 a | 95.70 a |
| es-BERT uncased | 80.15 | 89.55 | 82.67 | 98.44 | 96.12 ∗ |
| es-BERT cased | 82.01 | 89.05 | 88.43 | 98.97 ∗ | 95.60 |
- 스페인어 BERT uncased와 cased가 XNLI, PAWS-X, NER, POS, MLDoc에서 다수의 설정에서 최상 다국어 BERT를 능가했다; XNLI에서 가장 큰 이득 중 하나를 보였다.
- POS와 MLDoc 태스크에서 새로운 최첨단 성과를 달성했다.
- QA 결과는 경쟁력이 있었으나 다국어 모델과의 격차가 남았는데, MLQA의 기계 번역 품질 및 다언어 특성 때문일 수 있다.
- 일부 태스크에서는 다국어 데이터로 학습된 다국어 모델(XLM-RoBERTa 등)이 더 넓은 다국어 데이터에서 학습되었을 때 더 높은 점수를 얻었다.
- GLUES는 스페인어 중심 벤치마크를 제공하여 스페인어 NLP 모델 간의 표준화된 평가와 공정한 비교를 가능하게 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.