Skip to main content
QUICK REVIEW

[論文レビュー] CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary Representations From Characters

Hicham El Boukkouri, Olivier Ferret|arXiv (Cornell University)|Oct 20, 2020
Topic Modeling参考文献 32被引用数 28
ひとこと要約

CharacterBERTは、サブワードトークナイゼーションの代わりに文字レベルのCNNを用いて単語レベルでオープンボキャブラリーな表現を生成するBERTの変種を提案する。これにより、事前に定義されたワードピeceボキャブラリーに依存せず、医療NLPタスクにおける性能と耐性が向上する。CharacterBERTは、専門的な医療ベンチマークでBERTを上回り、綴りの誤りに対してもより強い耐性を示す。

ABSTRACT

Due to the compelling improvements brought by BERT, many recent representation models adopted the Transformer architecture as their main building block, consequently inheriting the wordpiece tokenization system despite it not being intrinsically linked to the notion of Transformers. While this system is thought to achieve a good balance between the flexibility of characters and the efficiency of full words, using predefined wordpiece vocabularies from the general domain is not always suitable, especially when building models for specialized domains (e.g., the medical domain). Moreover, adopting a wordpiece tokenization shifts the focus from the word level to the subword level, making the models conceptually more complex and arguably less convenient in practice. For these reasons, we propose CharacterBERT, a new variant of BERT that drops the wordpiece system altogether and uses a Character-CNN module instead to represent entire words by consulting their characters. We show that this new model improves the performance of BERT on a variety of medical domain tasks while at the same time producing robust, word-level and open-vocabulary representations.

研究の動機と目的

  • 一般ドメインのワードピeceボキャブラリーが、医療のような専門分野では、ドメイン固有の用語を効果的に捉えられないという限界を是正すること。
  • サブワードトークナイゼーションに依存しない、単語レベルの文脈的表現を生成するBERTの変種を開発すること。これにより、モデル設計と解釈の簡素化が図られる。
  • 文字ベースの表現学習が、綴りの誤りに対する耐性を向上させ、一般ドメインのBERTを上回る性能を示すかどうかを評価すること。
  • NLPコミュニティの再現可能性を支援するため、事前学習済みモデルとコードを公開すること。

提案手法

  • 各トークンの個々の文字を処理するCharacter-CNNモジュールに、BERTのワードピece埋め込み層を置き換える。これにより、文脈的な単語表現が生成される。
  • 同じTransformerエンコーダー構造(自己注意メカニズムとマルチレイヤー自己注意を含む)をBERTと同一に維持するが、入力埋め込み部のみを置き換える。
  • BERTと同様に、マスク言語モデルと次文予測を用いて、大規模な医療テキストコーパス(MIMIC-IIIおよびPMC OA)で事前学習を行う。
  • 臨床テキスト類似度、自然言語推論、固有表現抽出などの下流医療NLPタスクで、モデルを微調整する。
  • 耐性評価のために、ノイズ拡張を適用する。具体的には、1文字の誤り(置換、挿入、削除、交換)を導入して、耐性をテストする。
  • 複数回の実行における性能差の統計的有意性を評価するために、Almost Stochastic Order(ASO)テストを実施する。

実験結果

リサーチクエスチョン

  • RQ1一般ドメインのワードピeceボキャブラリーは、生物学的医療のような専門分野において最適でないのだろうか?
  • RQ2文字レベルの表現システムは、ドメイン固有のNLPタスクでサブワードトークナイゼーションを上回る性能を発揮できるのだろうか?
  • RQ3ワードピeceトークナイゼーションを文字レベルのエンコーディングに置き換えることで、医療テキストにおける綴りの誤りに対する耐性が向上するのだろうか?
  • RQ4単語レベルで動作するシンプルな入力表現にすることで、BERTと同等の性能を維持することは可能だろうか?

主な発見

  • CharacterBERTは、ClinicalSTS、MEDNLI、NERを含む、全評価済みの医療NLPタスクでBERTを上回り、Almost Stochastic Orderテストにより統計的に有意な改善が確認された。
  • MEDNLIベンチマークでは、CharacterBERT medicalがF1スコア86.3を達成し、BERT medical(85.8)を上回り、40%のテストセットノイズ下でも5ポイントの優位性を示した。
  • 40%のテストセットノイズ下で、CharacterBERTはBERTに対して5ポイントのF1スコア優位性を維持し、綴りの誤りに対する優れた耐性を示した。
  • レア語彙やドメイン固有語彙のワードピece分割率が低下した。一般ドメインボキャブラリーによる分割率は13%にとどまり、BERTのそれよりも低かった。
  • CharacterBERTの事前学習はBERTより遅いが、微調整と推論は同等またはわずかに速く、実装に適している。
  • BLUEベンチマークでは最先端の性能を達成し、医療特化版のバリエーションで最も優れた結果が得られた。これにより、ドメイン固有の設定における有効性が検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。