QUICK REVIEW

[논문 리뷰] Operationalizing a National Digital Library: The Case for a Norwegian Transformer Model

Per Egil Kummervold, Javier de la Rosa|arXiv (Cornell University)|2021. 04. 19.

Natural Language Processing Techniques인용 수 23

한 줄 요약

이 논문은 노르웨이 국립도서관 자료에서 109GB의 디지털화된 텍스트를 활용해 훈련한 대규모, 노르웨이 중심의 BERT 기반 언어 모델을 제시한다. 이 자료에는 OCR 처리된 자료도 포함되어 있다. 중간 정도의 OCR 노이즈가 존재하더라도, 이 모델은 노르웨이 북말(Bokmål) 및 니노르스크(Nynorsk) 작업에서 다국어 BERT(mBERT)를 능가하며, 영어, 스웨덴어, 덴마크어에서도 mBERT의 성능을 향상시킨다. 이는 노이즈가 있는 대규모 기관 자료가 저자원 언어를 위한 고성능 다국어 NLP 모델을 생성할 수 있음을 보여준다.

ABSTRACT

In this work, we show the process of building a large-scale training set from digital and digitized collections at a national library. The resulting Bidirectional Encoder Representations from Transformers (BERT)-based language model for Norwegian outperforms multilingual BERT (mBERT) models in several token and sequence classification tasks for both Norwegian Bokm{\\aa}l and Norwegian Nynorsk. Our model also improves the mBERT performance for other languages present in the corpus such as English, Swedish, and Danish. For languages not included in the corpus, the weights degrade moderately while keeping strong multilingual properties. Therefore, we show that building high-quality models within a memory institution using somewhat noisy optical character recognition (OCR) content is feasible, and we hope to pave the way for other memory institutions to follow.

연구 동기 및 목표

국립도서관의 대규모 디지털 자료를 활용해 고성능의 단일어 노르웨이 BERT 모델을 훈련시킬 수 있는지 탐구하는 것.
기관의 아카이브에서 유래한 OCR 처리된, 다소 노이즈가 있는 텍스트가 트랜스포머 모델의 훈련 데이터로 효과적으로 기능할 수 있는지 평가하는 것.
mBERT와 같은 다국어 기준 모델과 비교해, 노르웨이 북말 및 니노르스크 언어에서의 모델 성능을 평가하는 것.
특히 스웨덴어, 덴마크어, 영어와 같은 관련 언어에 대한 영향을 포함해, 모델의 다국어 능력을 탐색하는 것.
국립기념물 기관이 디지털 도서관을 운영하여 저자원 언어를 위한 고품질의 오픈소스 NLP 모델을 구축하고 배포할 수 있음을 보여주는 것.

제안 방법

국립도서관 내부의 비공개 자료를 활용해, 신문, 정부 문서, 위키백과 등 다양한 디지털 자료에서 109GB의 중복 제거된 텍스트 코퍼스를 구축했다.
mBERT 아키텍처를 기반으로 하되, 노르웨이 중심의 다국어 어휘(119,547개 토큰)를 사용해 BERT 기반 언어 모델을 훈련시켰다.
표준 BERT 사전훈련 목표인 마스킹 언어 모델링과 다음 문장 예측을 대규모 노르웨이 코퍼스에서 적용했다.
mBERT 훈련 시에는 이용할 수 없었던 대규모 배치 크기와 LAMB 옵timizer를 사용해 수렴성과 성능을 향상시켰다.
노르웨이 북말 및 니노르스크를 위한 토큰 및 시퀀스 분류 작업에서 모델을 미세조정하고, mBERT 및 기타 기준 모델과 결과를 비교했다.
영어, 스웨덴어, 덴마크어, 스페인어, 핀란드어 등에 대한 제로샷 성능 평가를 통해 다국어 전이 성능을 평가했다.

실험 결과

연구 질문

RQ1국립도서관의 디지털화된 OCR 처리 자료에서 훈련된 대규모 노르웨이 전용 BERT 모델이 노르웨이 NLP 작업에서 mBERT를 능가할 수 있는가?
RQ2국립도서관의 대규모 노이즈가 있는 코퍼스에서 훈련할 경우, 특히 스웨덴어와 덴마크어와 같은 유사 언어에 대해 다국어 능력이 유지되거나 향상되는 정도는 어느 정도인가?
RQ3훈련 데이터에 영어 텍스트가 소량(4%) 포함되어 있음에도 불구하고, 이 모델이 영어 NLP 작업에서 성능 향상을 보일 수 있는가?
RQ4훈련 데이터의 OCR 오류가 최종 모델 성능에 미치는 영향은 무엇이며, 모델이 이를 보완할 수 있는가?
RQ5국립도서관이 저자원 언어를 위한 고품질 오픈소스 NLP 모델을 훈련시키는 데 실질적인 자료원이 될 수 있는가?

주요 결과

노르웨이 BERT 모델은 노르웨이 북말 및 니노르스크 언어의 시퀀스 및 토큰 분류 작업에서 mBERT를 능가하며, 목표 언어에 대해 뛰어난 성능을 보였다.
영어, 스웨덴어, 덴마크어에서도 mBERT의 성능을 향상시켰으며, 이는 영어가 훈련 데이터의 4%에 불과함에도 불구하고 강력한 다국어 전이 능력을 지녔음을 시사한다.
영어, 스페인어, 핀란드어와 같은 OOV 언어에서 성능은 다소 저하되었지만 여전히 우수한 수준을 유지해, 명시적 훈련 없이도 모델이 다국어 특성을 유지하고 있음을 보여준다.
훈련 데이터의 OCR 노이즈가 존재하더라도 모델은 높은 성능을 유지했으며, 이는 이 맥락에서 양이 품질보다 더 중요할 수 있음을 시사한다.
특히 대규모 배치 크기와 LAMB 옵timizer와 같은 고급 훈련 기법이 모델의 뛰어난 성능, 특히 영어 능력 향상에 기여했을 가능성이 있다.
결과는 국립도서관이 디지털 자료를 고품질 오픈 NLP 자원으로 변환할 수 있음을 입증하며, 다른 기관에서도 유사한 사업을 추진할 수 있는 길을 열어준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.