Skip to main content
QUICK REVIEW

[論文レビュー] Portuguese Named Entity Recognition using BERT-CRF

Fábio Souza, Rodrigo Nogueira|arXiv (Cornell University)|Sep 23, 2019
Topic Modeling参考文献 26被引用数 180
ひとこと要約

この論文は Portuguese BERT モデルを訓練し、NER に BERT-CRF アーキテクチャを使用して、HAREM I で最先端の結果を達成し、特に総エンティティクラスのシナリオで F1 が著しく向上した。

ABSTRACT

Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).

研究の動機と目的

  • ラベル付きデータが少ない状況下で、事前学習済み言語モデルを用いてポルトガル語NERの性能向上を目指す。
  • さまざまな転移学習戦略の下で、BERTベースの表現がポルトガル語NERでどのように機能するかを評価する。
  • NER精度に対するCRF層とspanベースの文脈処理の影響を評価する。
  • ベンチマーク作成を促進するため、ポルトガル語NERの再現性のあるモデルとコードを提供する。

提案手法

  • 大規模なポルトガル語コーパス(brWaC)上で、WordPiece/SentencePiece 語彙を用いてポルトガル語 BERT の variants(BASE および LARGE)を訓練する。
  • トークンレベルの分類器と線形鎖 CRF を用いた BERT-CRF アーキテクチャを構築し、系列 tagging を行う。
  • 特徴量ベース(凍結した BERT に BiLSTM と CRF分類器を組み合わせる)とファインチューニング(BERT と分類器/CRF を共同訓練)を比較検討する。
  • 長文をストライドを用いて重なるスパンに分割して処理し、トークンごとに最も文脈豊富なスパンから最終タグを選択する。
  • IOB2 tagging のために ALT タグと多クラスエンティティを解決するよう HAREM データを前処理する。
  • CoNLL 2003 評価を用いて、HAREM First/ MiniHAREM データセットで従来の NER ベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1ポルトガル語の BERT-CRF は HAREM I(First HAREM および MiniHAREM)で従来の最先端 NER システムを上回るか?
  • RQ2ポルトガル語 NER における BERT の特徴量ベース転移戦略とファインチューニング転移戦略はどのように比較されるか?
  • RQ3ポルトガル語NERにおいて、BERT の上に CRF 層を追加することの影響は何か?
  • RQ4最大文脈を用いた span ベースの評価は、トークンレベルの予測にどのような影響を与えるか?
  • RQ5モデルサイズ(BASE 対 LARGE)がポルトガル語NERの性能に与える影響は何か?

主な発見

アーキテクチャ総予測精度総再現率総F1選択的精度選択的再現率選択的F1
CharWNN (Santos & Guimaraes, 2015)67.1663.7465.4173.9868.6871.23
LSTM-CRF (Castro et al., 2018)72.7868.0370.3378.2674.3976.27
BiLSTM-CRF+FlairBBP (Santos et al., 2019a)74.9174.3774.6483.3881.1782.26
ML-BERT BASE-LSTM †69.6869.5169.5975.5977.1376.35
ML-BERT BASE-LSTM-CRF †74.7069.7472.1480.6675.0677.76
ML-BERT BASE72.9773.7873.3777.3579.1678.25
ML-BERT BASE-CRF74.8273.4974.1580.1078.7879.44
PT-BERT BASE-LSTM †75.0073.6174.3079.8880.2980.09
PT-BERT BASE-LSTM-CRF †78.3373.2375.6984.5878.7281.66
PT-BERT BASE78.3677.6277.9883.2282.8583.03
PT-BERT BASE-CRF78.6076.8977.7383.8981.5082.68
PT-BERT LARGE-LSTM †72.9672.0572.5078.1378.9378.53
PT-BERT LARGE-LSTM-CRF †77.4572.4374.8683.0877.8380.37
PT-BERT LARGE78.4577.4077.9283.4583.1583.30
PT-BERT LARGE-CRF80.0877.3178.6784.8281.7283.24
  • PT-BERT BASE および LARGE with CRF は MiniHAREM で最先端の結果を達成し、従来手法に対して顕著な F1 の向上を示した。
  • ファインチューニングは一般に本タスクで特徴量ベースのアプローチより優れている。
  • CRF の組み込みは精度を向上させる傾向がある一方で、時には再現率を低下させることがあり、無効な IOB2 遷移の後処理が F1 の向上に寄与する(約1–2ポイント)。
  • 英語 NER の傾向と比較して、ポルトガル語の BERT モデルは non-CRF ベースラインに対して強力な性能向上を示す(総合シナリオでは LSTM-CRF と比較して約8.3ポイントまで)。
  • Large なポルトガル語 BERT が全体の結果で最良を示し、特に総エンティティクラスのシナリオで顕著だが、データセットサイズの影響でセレクティブなシナリオでは BASE との差が小さい場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。