QUICK REVIEW

[논문 리뷰] Spanish Pre-trained BERT Model and Evaluation Data

José Cañete, Gabriel Chaperon|arXiv (Cornell University)|2023. 08. 06.

Natural Language Processing Techniques인용 수 336

한 줄 요약

본 논문은 스페인어 데이터로만 학습된 스페인어 BERT 모델과 GLUE-유사 스페인어 벤치마크(GLUES)를 제시하여 여러 작업에서 다국어 BERT 기준모델과 경쟁력 있거나 최첨단 성능을 보여준다. 또한 저자들은 모델, 학습 데이터 및 벤치마크를 공개한다.

ABSTRACT

The Spanish language is one of the top 5 spoken languages in the world. Nevertheless, finding resources to train or evaluate Spanish language models is not an easy task. In this paper we help bridge this gap by presenting a BERT-based language model pre-trained exclusively on Spanish data. As a second contribution, we also compiled several tasks specifically for the Spanish language in a single repository much in the spirit of the GLUE benchmark. By fine-tuning our pre-trained Spanish model, we obtain better results compared to other BERT-based models pre-trained on multilingual corpora for most of the tasks, even achieving a new state-of-the-art on some of them. We have publicly released our model, the pre-training data, and the compilation of the Spanish benchmarks.

연구 동기 및 목표

연구자들이 접근 가능한 스페인어 사전 학습된 BERT 모델을 제공한다.
평가 표준화를 위한 GLUE-유사 스페인어 NLP 태스크 모음을 구성한다.
스페인어 데이터로 미세조정된 순수 스페인어 BERT가 많은 태스크에서 다국어 BERT 기준모델보다 우수함을 입증한다.
사전 학습 데이터와 벤치마크를 커뮤니티에 공개한다.

제안 방법

BERT-base 크기 모델(12 계층, 12 헤드, 768 히든)을 위키피디아와 OPUS 소스로부터 약 30억 개의 스페인어 단어로 학습시켜 대소문자 구분 버전(cased)과 소문자 구분 버전(uncased)을 생성한다.
SentencePiece를 사용한 32K 어휘(31K 서브워드 + 1K 플레이스홀더)와 다이내믹 마스킹(10x), 전체 단어 마스킹을 적용한다.
두 단계 사전 학습: 900k 스텝을 2048 배치 크기/128 최대 길이로 수행한 후 나머지 스텝은 256 배치 크기/512 최대 길이로; 10000 스텝 워밍업; TPU v3-8에서 학습.
XNLI, PAWS-X, CoNLL NER, UD POS, MLDoc, UD2.2 의존성 파싱, QA 데이터셋(MLQA, XQuAD, TAR)을 포함하는 스페인어 GLUE-유사 벤치마크인 GLUES를 구성한다.
표준 BERT 미세조정(Adam, 10% 워밍업, 긴 시퀀스에 대한 슬라이딩 윈도우)을 사용하여 태스크별 출력으로 미세조정하고, 태스크에 적합한 평가 지표로 평가한다.

실험 결과

연구 질문

RQ1스페인어 데이터로 미세조정된 순수 스페인어 BERT 모델이 스페인어 NLP 태스크에서 다국어 BERT 기준모델보다 우수한가?
RQ2GLUE-유사 스페인어 벤치마크(GLUES)가 평가의 표준화를 이뤄 스페인어 NLP 발전을 촉진할 수 있는가?
RQ3QA, NER, POS 등 태스크에서 순수 스페인어 BERT와 다국어 모델의 상대적 강점과 한계는 무엇인가?

주요 결과

모델	XNLI	PAWS-X	NER	POS	MLDoc
Best mBERT	78.50 a	89.00 b	87.38 a	97.10 a	95.70 a
es-BERT uncased	80.15	89.55	82.67	98.44	96.12 ∗
es-BERT cased	82.01	89.05	88.43	98.97 ∗	95.60

스페인어 BERT uncased와 cased가 XNLI, PAWS-X, NER, POS, MLDoc에서 다수의 설정에서 최상 다국어 BERT를 능가했다; XNLI에서 가장 큰 이득 중 하나를 보였다.
POS와 MLDoc 태스크에서 새로운 최첨단 성과를 달성했다.
QA 결과는 경쟁력이 있었으나 다국어 모델과의 격차가 남았는데, MLQA의 기계 번역 품질 및 다언어 특성 때문일 수 있다.
일부 태스크에서는 다국어 데이터로 학습된 다국어 모델(XLM-RoBERTa 등)이 더 넓은 다국어 데이터에서 학습되었을 때 더 높은 점수를 얻었다.
GLUES는 스페인어 중심 벤치마크를 제공하여 스페인어 NLP 모델 간의 표준화된 평가와 공정한 비교를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.