[논문 리뷰] FlauBERT: Unsupervised Language Model Pre-training for French
FlauBERT는 대규모 다양한 프랑스어 말뭉치에서 사전학습된 단일언어 프랑스어 Transformer 언어 모델로, 여러 프랑스어 NLP 태스크에서 최첨단 성과를 달성하고 재현 가능한 평가를 위한 FLUE 벤치마크와 함께 공개되었습니다.
Language models have become a key step to achieve state-of-the art results in many different Natural Language Processing (NLP) tasks. Leveraging the huge amount of unlabeled texts nowadays available, they provide an efficient way to pre-train continuous word representations that can be fine-tuned for a downstream task, along with their contextualization at the sentence level. This has been widely demonstrated for English using contextualized representations (Dai and Le, 2015; Peters et al., 2018; Howard and Ruder, 2018; Radford et al., 2018; Devlin et al., 2019; Yang et al., 2019b). In this paper, we introduce and share FlauBERT, a model learned on a very large and heterogeneous French corpus. Models of different sizes are trained using the new CNRS (French National Centre for Scientific Research) Jean Zay supercomputer. We apply our French language models to diverse NLP tasks (text classification, paraphrasing, natural language inference, parsing, word sense disambiguation) and show that most of the time they outperform other pre-training approaches. Different versions of FlauBERT as well as a unified evaluation protocol for the downstream tasks, called FLUE (French Language Understanding Evaluation), are shared to the research community for further reproducible experiments in French NLP.
연구 동기 및 목표
- 대규모 비라벨 프랑스어 텍스트를 활용하여 맥락 표현을 개선함으로써 프랑스어 NLP의 개선을 촉진한다.
- 다양한 태스크에서 다중언어 모델을 능가하도록 단일언어 프랑스어 BERT-스타일 모델을 개발한다.
- 재현 가능한 파이프라인과 프랑스어 NLP 평가 벤치마크(FLUE)를 제공한다.
- 여러 버전의 FlauBERT를 공개하고 태스크 전반에서 CamemBERT 및 mBERT와 비교한다.
제안 방법
- 24개 하위 코퍼스로 구성된 71 GB 프랑스어 말뭉치에서 MLM objective를 사용하여 두 가지 FlauBERT 변형(base 및 large)을 사전 학습한다( NSP 없음 ).
- BPE 이전에 바이트 페어 인코딩(Byte Pair Encoding)으로 50K BPE 어휘를 사용하고 기본 프랑스어 토크나이저를 적용한다.
- 대형 모델의 학습 안정화를 위해 pre-norm Transformer 및 확률적 깊이를 채택한다.
- 기저 모델은 32개의 GPU, 대형 모델은 128개의 GPU 등 상당한 GPU 자원에서 학습하고 학습률 조정, 워밍업 및 Adam 최적화를 신중하게 설정한다.
- 일련의 프랑스어 NLP 태스크에서 FlauBERT를 mBERT, CamemBERT 및 XLM-R과 비교한다.
- 전처리 및 학습 스크립트와 재현 가능한 프랑스어 NLP 평가를 위한 통합 FLUE 벤치마크를 제공한다.
실험 결과
연구 질문
- RQ1대규모 이질적 프랑스어 말뭉치에서 학습된 단일언어 프랑스어 Transformer 모델이 프랑스어 NLP 태스크에서 다중언어 모델보다 성능을 능가할 수 있는가?
- RQ2다양한 프랑스어 NLP 태스크에서 모델 규모(base vs large)가 성능에 미치는 영향은 무엇인가?
- RQ3기존 프랑스어 및 다중언어 모델과 비교하여 포괄적인 프랑스어 평가 모음(FLUE)에서 단일언어 프랑스어 모델이 최첨단 결과를 달성하는가?
주요 결과
- FlauBERT는 여러 프랑스어 NLP 태스크에서 mBERT와 같은 다중언어 모델보다 더 우수한 성능을 보인다.
- 대형 FlauBERT 모델은 일반적으로 태스크 전반에서 최상의 결과를 낳고 기저 모델에 비해 성능이 좋으며 여러 설정에서 CamemBERT에 근접한다.
- 구문 분석 태스크에서 FlauBERT 기반 시스템은 강력한 성능을 달성하며 앙상블 구성이 추가 이점을 제공한다.
- 일부 구성에서 더 적은 데이터로 학습되었음에도 불구하고 여러 태스크에서 CamemBERT에 견줄 만하거나 우수한 결과를 달성한다.
- 프랑스어 NLP 시스템의 재현 가능한 평가를 촉진하기 위해 통합 FLUE 벤치마크가 공개된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.