QUICK REVIEW

[論文レビュー] KR-BERT: A Small-Scale Korean-Specific Language Model

Sangah Lee, Hansol Jang|arXiv (Cornell University)|Aug 10, 2020

Topic Modeling参考文献 12被引用数 23

ひとこと要約

KR-BERTは、サブ文字レベルの語彙と、新しい双方向WordPieceトークナイザーを用いた、小規模で韓国語に特化したBERTモデルであり、語形に富んだ韓国語の言語的特徴を効果的に捉える。多言語BERTの1/10のデータで学習したにもかかわらず、感情分析、NER、質問応答タスクにおいて多言語BERTを上回り、他の韓国語モデルと同等またはそれを上回る性能を示し、特に未知語（OOV）の処理において優れた性能を発揮する。

ABSTRACT

Since the appearance of BERT, recent works including XLNet and RoBERTa utilize sentence embedding models pre-trained by large corpora and a large number of parameters. Because such models have large hardware and a huge amount of data, they take a long time to pre-train. Therefore it is important to attempt to make smaller models that perform comparatively. In this paper, we trained a Korean-specific model KR-BERT, utilizing a smaller vocabulary and dataset. Since Korean is one of the morphologically rich languages with poor resources using non-Latin alphabets, it is also important to capture language-specific linguistic phenomena that the Multilingual BERT model missed. We tested several tokenizers including our BidirectionalWordPiece Tokenizer and adjusted the minimal span of tokens for tokenization ranging from sub-character level to character-level to construct a better vocabulary for our model. With those adjustments, our KR-BERT model performed comparably and even better than other existing pre-trained models using a corpus about 1/10 of the size.

研究の動機と目的

語形に富んだ非ラテン文字を使用する言語に特化した、軽量で高性能な韓国語固有の言語モデルを開発し、多言語BERTが語形に富んだ非ラテン文字を処理する際の制限を克服すること。
韓国語の屈曲的語形と複雑な表記体系（한글）の課題に、特化したトークナイザーとサブ文字レベルの表現を用いて対処すること。
RoBERTa や XLNet などの大規模モデルと比較して、はるかに少ない学習データで競争力のある性能を達成すること。
サブ文字レベルのトークナイゼーションと双方向WordPieceアプローチが、OOV（未知語）の処理と語形一般化の向上にどのように寄与するかを評価すること。

提案手法

左・右の文脈を両方考慮する双方向WordPieceトークナイザーを提案し、韓国語における語形表現の向上を図った。
最小のトークナイゼーション単位としてサブ文字ユニット（例：자모）を用いた語彙を構築し、希少語や未知語の数を削減した。
約1.5GBの整理された韓国語コーパスを用いて、KR-BERTをスクラッチから学習した。これは多言語BERTの学習データの約1/10に相当する。
マスク言語モデル（MLM）と次文予測（NSP）を、BERTと同様の事前学習目的としたが、韓国語の言語構造に適応させた。
文字レベル、語素レベル、サブ文字レベルのトークナイゼーション戦略を、WordPieceにおける文脈の双方向性の有無を含めて比較した。
語彙の刈り込みと最小限のスパン調整を適用し、カバー範囲とサブ語の粒度のバランスを保ち、語形の豊かさを最適化した。

実験結果

リサーチクエスチョン

RQ1小規模で韓国語に特化したBERTモデルは、下流タスクにおける大規模な多言語モデルや多言語モデルと同等の性能を達成できるか？
RQ2サブ文字レベルのトークナイゼーションは、語形が複雑でリソースが限られる言語（例：韓国語）において、どのように性能を向上させるか？
RQ3双方向WordPieceトークナイザーは、標準的なWordPieceやSentencePieceに比べ、韓国語の語形素をより効果的に捉え、[UNK]トークンの発生を減らせるか？
RQ4多言語BERTの1/10の学習コーパスを使用した場合、言語固有のトークナイゼーションと組み合わせることで、モデル性能にどのような影響が生じるか？
RQ5さまざまなトークナイゼーション戦略は、NSMC や KorNER のような現実的でノイズの多いデータセットにおけるOOV（未知語）の処理に、どのように影響を与えるか？

主な発見

KR-BERTは、感情分析、NER、質問応答、類似文検出の4つの下流タスクすべてで多言語BERTを上回り、KorNERとKorQuADでは7%の向上を達成した。
サブ文字レベルの双方向WordPieceモデルは、NERで最高のF1スコア（87.6）を記録し、特にノイズが多く未知語が豊富なデータセットでも一貫性の高い性能を示した。
サブ文字レベルの双方向WordPieceモデルでは[UNK]比率が0.00015にまで低下し、多言語BERTの1.024%よりも顕著に低く、未知語処理の優位性が裏付けられた。
NSMCの感情分析データセットでは、双方向WordPieceモデルが「caymisnunteyng」のような非標準表記を「caymi#s#nuntey#ng」と正しくトークン化し、意味的単位を保持した。
KR-BERTの文字レベルWordPieceモデルは、類似文検出タスクで最高の正答率を達成し、このタスクではKorBERTに次いで2番目に高い性能を示した。
多言語BERTの1/10にあたる約1.5GBの学習データを使用したにもかかわらず、KorBERT や KoBERT などの大規模モデルと同等またはそれ以上の性能を達成しており、効率性と有効性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。