QUICK REVIEW

[논문 리뷰] KR-BERT: A Small-Scale Korean-Specific Language Model

Sangah Lee, Hansol Jang|arXiv (Cornell University)|2020. 08. 10.

Topic Modeling참고 문헌 12인용 수 23

한 줄 요약

KR-BERT는 서브-캐릭터 수준의 어휘와 새로운 양방향 WordPiece 토크나이저를 사용하는 소규모, 한국어 전용 BERT 모델로, 문법적으로 복잡한 한국어 언어적 특징을 효과적으로 포착한다. 다국어 BERT의 1/10에 불과한 데이터로 훈련되었음에도 불구하고, 감성 분석, NER, 질의응답 작업에서 다국어 BERT를 능가하고, 다른 한국어 모델과 경쟁하거나 뛰어넘는 성능을 보이며, 특히 OOV(사전에 없는 단어) 처리에서 뛰어난 성능을 발휘한다.

ABSTRACT

Since the appearance of BERT, recent works including XLNet and RoBERTa utilize sentence embedding models pre-trained by large corpora and a large number of parameters. Because such models have large hardware and a huge amount of data, they take a long time to pre-train. Therefore it is important to attempt to make smaller models that perform comparatively. In this paper, we trained a Korean-specific model KR-BERT, utilizing a smaller vocabulary and dataset. Since Korean is one of the morphologically rich languages with poor resources using non-Latin alphabets, it is also important to capture language-specific linguistic phenomena that the Multilingual BERT model missed. We tested several tokenizers including our BidirectionalWordPiece Tokenizer and adjusted the minimal span of tokens for tokenization ranging from sub-character level to character-level to construct a better vocabulary for our model. With those adjustments, our KR-BERT model performed comparably and even better than other existing pre-trained models using a corpus about 1/10 of the size.

연구 동기 및 목표

다국어 BERT가 문법적으로 복잡한 비라틴 문자를 다룰 때 겪는 한계를 극복하고, 경량이면서 고성능인 한국어 전용 언어 모델을 개발하는 것.
한국어의 복합적 어형 구조와 복잡한 문자 체계(Hangul)에 대응하기 위해 맞춤형 토크나이저와 서브-캐릭터 수준의 표현 방식을 도입하는 것.
RoBERTa나 XLNet과 같은 대규모 모델보다 훨씬 적은 훈련 데이터를 사용하면서도 경쟁 가능한 성능을 달성하는 것.
서브-캐릭터 수준의 토크나이징과 양방향 WordPiece 접근 방식이 OOV(사전에 없는 단어) 처리 및 어형 일반화 능력을 향상시키는지 평가하는 것.

제안 방법

좌우 양방향 컨텍스트를 고려하는 양방향 WordPiece 토크나이저를 제안하여, 한국어에서의 어형 표현을 향상시켰다.
가장 작은 토크나이징 단위로 자모(Jamo)와 같은 서브-캐릭터 단위를 사용하여 어휘를 구성함으로써 드문 또는 알 수 없는 토큰의 수를 줄였다.
약 1.5GB의 정제된 한국어 코퍼스에서 KR-BERT를 처음부터 훈련시켰으며, 이는 다국어 BERT 훈련 데이터의 약 1/10에 해당한다.
BERT와 유사한 막힌 언어 모델링(MLM)과 다음 문장 예측(NSP)을 사전 훈련 목적으로 사용했지만, 한국어 언어적 구조에 맞게 조정하였다.
문자 수준, 형태소 수준, 서브-캐릭터 수준의 다양한 토크나이징 전략을 비교하였으며, WordPiece에서 양방향 컨텍스트를 고려한 경우와 고려하지 않은 경우를 모두 포함하였다.
어휘 정제와 최소한의 스팬 조정을 통해 커버리지와 서브-워드의 세분화 수준의 균형을 맞추어 어형의 풍부함을 최적화하였다.

실험 결과

연구 질문

RQ1소규모, 한국어 전용 BERT 모델이 한국어 NLP 작업에서 다국어 BERT나 다국어 모델과 비교해 경쟁 가능한 성능을 달성할 수 있는가?
RQ2서브-캐릭터 수준의 토크나이징이 한국어처럼 어형이 복잡하고 자원이 제한된 언어에서 성능 향상에 어떻게 기여하는가?
RQ3양방향 WordPiece 토크나이저가 표준 WordPiece나 SentencePiece보다 한국어 어형 단위를 더 잘 포착하고 [UNK] 토큰을 줄이는가?
RQ4다국어 BERT의 1/10에 불과한 작은 훈련 코퍼스를 사용할 경우, 언어에 특화된 토크나이징과 결합했을 때 모델 성능에 어떤 영향을 미치는가?
RQ5다양한 토크나이징 전략이 NSMC와 KorNER와 같은 실제의 노이즈가 많은, OOV가 많은 데이터셋에서 OOV 처리에 어떤 영향을 미치는가?

주요 결과

KR-BERT는 감성 분석, NER, 질의응답, 병행 검색 탐지 등 네 가지 하류 작업 전반에서 다국어 BERT를 능가했으며, KorNER와 KorQuAD에서 각각 7% 향상된 성능을 기록했다.
KR-BERT의 서브-캐릭터 양방향 WordPiece 모델은 NER에서 가장 높은 F1 점수(87.6)를 기록했고, 특히 노이즈가 많고 OOV가 많은 데이터에서 뛰어난 일관성을 보였다.
서브-캐릭터 양방향 WordPiece 모델의 [UNK] 비율은 0.00015로 낮아졌으며, 이는 다국어 BERT의 1.024%보다 유의미하게 낮아, OOV 처리 능력이 뛰어나다는 것을 시사한다.
NSMC 감성 데이터셋에서, 양방향 WordPiece 모델은 'caymisnunteyng'과 같은 비표준 형태를 'caymi#s#nuntey#ng'으로 정확히 토크나이징하여 의미 단위를 유지했다.
KR-BERT의 문자 수준 WordPiece 모델은 병행 검색 탐지에서 가장 높은 정확도를 기록했으며, 이 작업에서 KorBERT에 이어 두 번째로 높은 성능을 보였다.
다국어 BERT의 1/10에 불과한 약 1.5GB의 훈련 데이터를 사용했음에도 불구하고, KR-BERT는 KorBERT나 KoBERT와 같은 더 큰 모델의 성능을 따라하거나 능가하는 등 효율성과 효과성을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.