QUICK REVIEW

[논문 리뷰] MarIA: Spanish Language Models

Asier Gutiérrez-Fandiño, Jordi Armengol-Estapé|arXiv (Cornell University)|2021. 07. 15.

Natural Language Processing Techniques인용 수 58

한 줄 요약

본 논문은 스페인어 대형 모델 네 가지(RoBERTa-base, RoBERTa-large, GPT-2 변종)를 스페인국립도서관의 방대한 스페인어 사전학습 코퍼스로 학습시키고, 새로운 QA 데이터셋 SQAC를 도입하며, 9개 작업에서 다국어 및 스페인어 기저모델과 비교 평가한다.

ABSTRACT

This work presents MarIA, a family of Spanish language models and associated resources made available to the industry and the research community. Currently, MarIA includes RoBERTa-base, RoBERTa-large, GPT2 and GPT2-large Spanish language models, which can arguably be presented as the largest and most proficient language models in Spanish. The models were pretrained using a massive corpus of 570GB of clean and deduplicated texts with 135 billion words extracted from the Spanish Web Archive crawled by the National Library of Spain between 2009 and 2019. We assessed the performance of the models with nine existing evaluation datasets and with a novel extractive Question Answering dataset created ex novo. Overall, MarIA models outperform the existing Spanish models across a variety of NLU tasks and training settings.

연구 동기 및 목표

대규모 스페인어 코퍼스로 학습된 고품질 스페인어 언어 모델의 격차를 해소하기 위해 대규모 사전학습 모델을 생성한다.
스페인어에 대해 RoBERTa 기반 인코더와 GPT-2 기반 디코더 모델을 개발하고 공개한다.
새로운 스페인어 QA 데이터셋(SQAC)을 만들고 평가하며 광범위한 다운스트림 태스크 벤치마크를 제공한다.

제안 방법

.es 도메인에 대한 2009–2019 BNE 크롤링으로 대형 사전학습 코퍼트를 구축하고 엄격한 정제 및 중복 제거를 수행한다.
512토큰 시퀀스 길이에서 다음 문장 예측 없이 마스킹된 언어 모델링으로 RoBERTa-base(RoBERTa-b)와 RoBERTa-large(RoBERTa-l)를 학습한다.
같은 코퍼퍼에서 언어 모델링 목적을 이용해 GPT-2(gpt2)와 GPT-2-large(gpt2-large)를 학습한다.
표준화된 HuggingFace 기반 절차와 격자 탐색 하이퍼파라미터 튜닝으로 9개의 다운스트림 태스크에서 모델을 미세조정한다.
스페인어 추출형 QA 평가를 가능하게 하는 18,817개의 질문과 6,247개의 컨텍스트를 가진 스페인어 SQAC를 도입한다.

Figure 1: Perplexity curves for GPT2 model.

실험 결과

연구 질문

RQ1대규모로 다양하며 비 위키피디아 코퍼스로 학습된 스페인어 언어 모델이 다운스트림 NLP 태스크에 어떤 영향을 미치는가?
RQ2RoBERTa 기반 인코더와 GPT-2 기반 디코더가 기존의 스페인어 및 다국어 모델과 표준 벤치에서 어떻게 비교되는가?
RQ3새로운 스페인어 QA 데이터셋(SQAC)이 스페인어 QA 시스템의 견고한 평가와 개발을 가능하게 하는가?

주요 결과

데이터세트	지표	RoBERTa-b	RoBERTa-l	BETO	mBERT	BERTIN	ELECTRA
MLDoc	F1	0.9664	0.9702	0.9714	0.9617	0.9668	0.9565
CoNLL-NERC	F1	0.8851	0.8823	0.8759	0.8691	0.8835	0.7954
CAPITEL-NERC	F1	0.8960	0.9051	0.8772	0.8810	0.8856	0.8035
PAWS-X	F1	0.9020	0.9150	0.8930	0.9000	0.8965	0.9045
UD-POS	F1	0.9907	0.9904	0.9900	0.9886	0.9898	0.9818
CAPITEL-POS	F1	0.9846	0.9856	0.9836	0.9839	0.9847	0.9816
SQAC	F1	0.7923	0.8202	0.7923	0.7562	0.7678	0.7383
STS	Combined	0.8533	0.8411	0.8159	0.8164	0.7945	0.8063
XNLI	Accuracy	0.8016	0.8263	0.8130	0.7876	0.7890	0.7878

RoBERTa-large는 대체로 대부분의 태스크에서 최상위 또는 거의 최상위 성능을 달성하며, CAPITEL-NERC, STS, SQAC에서 기저모델 대비 두드러진 향상을 보였다.
RoBERTa-base와 RoBERTa-large는 다국어 mBERT 및 여러 스페인어 기저모델(BETO, BERTIN, ELECTRA)을 여러 태스크에서 상회했다.
위키피디아 데이터 이외의 데이터에서 학습된 모델과 비위키피디아 데이터 간의 격차가 CAPITEL-NERC, STS, SQAC와 같은 비위키피디아 데이터에서 상당한 것으로 나타났다.
UD-POS 및 CAPITEL-POS는 매우 높은 정확도를 보이며, RoBERTa 계열이 선두를 이끌거나 최상위 기준에 일치했다.
SQAC는 인간 합의도가 높은 고품질의 원문 스페인어 QA 벤치마크를 제공하여 스페인어 추출형 QA 평가의 격차를 메웠다.
GPT-2 모델은 데이터셋 제약으로 인해 태스크 기반 벤치마크보다는 혼합된 perplexity 곡선으로 평가되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.