QUICK REVIEW

[논문 리뷰] The Interplay of Variant, Size, and Task Type in Arabic Pre-trained Language Models

Go Inoue, Bashar Alhafni|arXiv (Cornell University)|2021. 03. 11.

Topic Modeling참고 문헌 46인용 수 139

한 줄 요약

본 연구는 세 가지 변형(MSA, 방언 아랍어, 고전 아랍어)과 혼합 변형에 걸친 아랍어 언어 모델의 제어된 사전 학습을 수행하고, 데이터 크기 영향력을 분석하며, 파인튜닝 데이터에 대한 변형의 근접성이 다운스트림 작업에서 사전 학습 크기보다 더 큰 요인임을 보인다.

ABSTRACT

In this paper, we explore the effects of language variants, data sizes, and fine-tuning task types in Arabic pre-trained language models. To do so, we build three pre-trained language models across three variants of Arabic: Modern Standard Arabic (MSA), dialectal Arabic, and classical Arabic, in addition to a fourth language model which is pre-trained on a mix of the three. We also examine the importance of pre-training data size by building additional models that are pre-trained on a scaled-down set of the MSA variant. We compare our different models to each other, as well as to eight publicly available models by fine-tuning them on five NLP tasks spanning 12 datasets. Our results suggest that the variant proximity of pre-training data to fine-tuning data is more important than the pre-training data size. We exploit this insight in defining an optimized system selection model for the studied tasks.

연구 동기 및 목표

다양한 아랍어 NLP 작업에서 사전 학습 데이터 크기가 파인튜닝 성능에 어떤 영향을 미치는지 조사한다.
세 가지 아랍어 변형(MSA, 방언 아랍어, 고전 아랍어)과 혼합 변형이 다운스트림 작업에 미치는 영향을 고찰한다.
CAMeLBERT 모델을 8개의 공개 아랍어 PLMs과 12개의 하위 작업에서 비교 평가한다(NER, POS, 감정 분석, 방언 식별, 시 분류).
작업 특성과 데이터 근접성에 따라 사전 학습 모델을 선택하는 실용적인 지침을 제시한다.

제안 방법

distinct data sizes and language variants에 대해 CAMeLBERT 모델을 사전 학습한다(MSA, DA, CA, Mix).
30k WordPiece 어휘로 토큰화하고 전체 단어 마스킹을 10x 중복 계수로 적용한다.
NER, POS, 감정, 방언 ID, 시 분류의 5개 NLP 작업에서 12개의 하위 작업에 대해 표준 Hugging Face 트랜스포머를 사용하여 파인튜닝한다.
CAMeLBERT 변형을 12개의 하위 작업에서 8개의 공개 아랍어 PLMs과 비교하고 OOV 비율을 변형 근접성의 대리 변수로 분석한다.
작업 데이터 특성에 따라 MSA, DA, CA, Mix 중에서 적절한 모델을 선택하는 최적화된 CAMeLBERT-Star 시스템을 제안한다.

실험 결과

연구 질문

RQ1사전 학습 데이터 크기가 아랍어 NLP 작업에서 다운스트림 파인튜닝 성능에 어떤 영향을 미치는가?
RQ2언어 변형(MSA, 방언 아랍어, 고전 아랍어)과 이들의 혼합이 다운스트림 작업 성능에 어떤 영향을 미치는가?
RQ3사전 학습 데이터와 파인튜닝 데이터 간의 변형 근접성이 사전 학습 데이터의 단순한 크기보다 더 큰 영향력을 가지는가?
RQ4변형 근접성을 활용한 최적화된 모델 선택 전략이 작업별 성능을 향상시킬 수 있는가?
RQ5CAMeLBERT 모델은 광범위한 작업 및 데이터셋에서 기존의 8개 모델과 비교해 어떤 성능 차이를 보이는가?

주요 결과

사전 학습 데이터 크기는 파인튜닝 성능에 제한적이고 일관되지 않은 영향을 미친다.
변형 근접성(MSA/DA/CA가 작업 데이터와 얼마나 잘 맞는지)이 작업 전반에서 성능을 크게 좌우한다.
CAMeLBERT-MSA가 단일 변형 모델 중 전반적으로 가장 좋은 성능을 보이는 경우가 많고, CAMeLBERT-DA는 방언적 작업에서, CAMeLBERT-CA는 시 분류에서 우수하다.
CAMeLBERT-Mix는 일반적으로 방언적 작업에서 성능을 개선하고 일부 하위 작업에서 경쟁력 있는 결과를 제공하며, 다양한 사전 학습 데이터의 가치가 조합에 중요함을 시사한다.
최적화된 CAMeLBERT-Star 시스템은 변형 근접성을 활용해 주어진 작업에 적합한 모델을 선택하고 CAMeLBERT-MSA, CAMeLBERT-DA, CAMeLBERT-CA, CAMeLBERT-Mix 간 보완적 강점을 보인다.
8개의 기존 모델과 비교 시 AraBERTv02가 평균적으로 선두를 달리는 경우가 많으나, CAMeLBERT-Star와 CAMeLBERT-Mix는 강력한 보완적 성능을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.