Skip to main content
QUICK REVIEW

[논문 리뷰] Spanish Pre-trained BERT Model and Evaluation Data

José Cañete, Gabriel Chaperon|arXiv (Cornell University)|2023. 08. 06.
Natural Language Processing Techniques인용 수 336
한 줄 요약

본 논문은 스페인어 데이터로만 학습된 스페인어 BERT 모델과 GLUE-유사 스페인어 벤치마크(GLUES)를 제시하여 여러 작업에서 다국어 BERT 기준모델과 경쟁력 있거나 최첨단 성능을 보여준다. 또한 저자들은 모델, 학습 데이터 및 벤치마크를 공개한다.

ABSTRACT

The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.

연구 동기 및 목표

  • 연구자들이 접근 가능한 스페인어 사전 학습된 BERT 모델을 제공한다.
  • 평가 표준화를 위한 GLUE-유사 스페인어 NLP 태스크 모음을 구성한다.
  • 스페인어 데이터로 미세조정된 순수 스페인어 BERT가 많은 태스크에서 다국어 BERT 기준모델보다 우수함을 입증한다.
  • 사전 학습 데이터와 벤치마크를 커뮤니티에 공개한다.

제안 방법

  • BERT-base 크기 모델(12 계층, 12 헤드, 768 히든)을 위키피디아와 OPUS 소스로부터 약 30억 개의 스페인어 단어로 학습시켜 대소문자 구분 버전(cased)과 소문자 구분 버전(uncased)을 생성한다.
  • SentencePiece를 사용한 32K 어휘(31K 서브워드 + 1K 플레이스홀더)와 다이내믹 마스킹(10x), 전체 단어 마스킹을 적용한다.
  • 두 단계 사전 학습: 900k 스텝을 2048 배치 크기/128 최대 길이로 수행한 후 나머지 스텝은 256 배치 크기/512 최대 길이로; 10000 스텝 워밍업; TPU v3-8에서 학습.
  • XNLI, PAWS-X, CoNLL NER, UD POS, MLDoc, UD2.2 의존성 파싱, QA 데이터셋(MLQA, XQuAD, TAR)을 포함하는 스페인어 GLUE-유사 벤치마크인 GLUES를 구성한다.
  • 표준 BERT 미세조정(Adam, 10% 워밍업, 긴 시퀀스에 대한 슬라이딩 윈도우)을 사용하여 태스크별 출력으로 미세조정하고, 태스크에 적합한 평가 지표로 평가한다.

실험 결과

연구 질문

  • RQ1스페인어 데이터로 미세조정된 순수 스페인어 BERT 모델이 스페인어 NLP 태스크에서 다국어 BERT 기준모델보다 우수한가?
  • RQ2GLUE-유사 스페인어 벤치마크(GLUES)가 평가의 표준화를 이뤄 스페인어 NLP 발전을 촉진할 수 있는가?
  • RQ3QA, NER, POS 등 태스크에서 순수 스페인어 BERT와 다국어 모델의 상대적 강점과 한계는 무엇인가?

주요 결과

모델XNLIPAWS-XNERPOSMLDoc
Best mBERT78.50 a89.00 b87.38 a97.10 a95.70 a
es-BERT uncased80.1589.5582.6798.4496.12 ∗
es-BERT cased82.0189.0588.4398.97 ∗95.60
  • 스페인어 BERT uncased와 cased가 XNLI, PAWS-X, NER, POS, MLDoc에서 다수의 설정에서 최상 다국어 BERT를 능가했다; XNLI에서 가장 큰 이득 중 하나를 보였다.
  • POS와 MLDoc 태스크에서 새로운 최첨단 성과를 달성했다.
  • QA 결과는 경쟁력이 있었으나 다국어 모델과의 격차가 남았는데, MLQA의 기계 번역 품질 및 다언어 특성 때문일 수 있다.
  • 일부 태스크에서는 다국어 데이터로 학습된 다국어 모델(XLM-RoBERTa 등)이 더 넓은 다국어 데이터에서 학습되었을 때 더 높은 점수를 얻었다.
  • GLUES는 스페인어 중심 벤치마크를 제공하여 스페인어 NLP 모델 간의 표준화된 평가와 공정한 비교를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.