QUICK REVIEW

[論文レビュー] Portuguese Named Entity Recognition using BERT-CRF

Fábio Souza, Rodrigo Nogueira|arXiv (Cornell University)|Sep 23, 2019

Topic Modeling参考文献 26被引用数 180

ひとこと要約

この論文は Portuguese BERT モデルを訓練し、NER に BERT-CRF アーキテクチャを使用して、HAREM I で最先端の結果を達成し、特に総エンティティクラスのシナリオで F1 が著しく向上した。

ABSTRACT

Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).

研究の動機と目的

ラベル付きデータが少ない状況下で、事前学習済み言語モデルを用いてポルトガル語NERの性能向上を目指す。
さまざまな転移学習戦略の下で、BERTベースの表現がポルトガル語NERでどのように機能するかを評価する。
NER精度に対するCRF層とspanベースの文脈処理の影響を評価する。
ベンチマーク作成を促進するため、ポルトガル語NERの再現性のあるモデルとコードを提供する。

提案手法

大規模なポルトガル語コーパス（brWaC）上で、WordPiece/SentencePiece 語彙を用いてポルトガル語 BERT の variants（BASE および LARGE）を訓練する。
トークンレベルの分類器と線形鎖 CRF を用いた BERT-CRF アーキテクチャを構築し、系列 tagging を行う。
特徴量ベース（凍結した BERT に BiLSTM と CRF分類器を組み合わせる）とファインチューニング（BERT と分類器/CRF を共同訓練）を比較検討する。
長文をストライドを用いて重なるスパンに分割して処理し、トークンごとに最も文脈豊富なスパンから最終タグを選択する。
IOB2 tagging のために ALT タグと多クラスエンティティを解決するよう HAREM データを前処理する。
CoNLL 2003 評価を用いて、HAREM First/ MiniHAREM データセットで従来の NER ベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1ポルトガル語の BERT-CRF は HAREM I（First HAREM および MiniHAREM）で従来の最先端 NER システムを上回るか？
RQ2ポルトガル語 NER における BERT の特徴量ベース転移戦略とファインチューニング転移戦略はどのように比較されるか？
RQ3ポルトガル語NERにおいて、BERT の上に CRF 層を追加することの影響は何か？
RQ4最大文脈を用いた span ベースの評価は、トークンレベルの予測にどのような影響を与えるか？
RQ5モデルサイズ（BASE 対 LARGE）がポルトガル語NERの性能に与える影響は何か？

主な発見

アーキテクチャ	総予測精度	総再現率	総F1	選択的精度	選択的再現率	選択的F1
CharWNN (Santos & Guimaraes, 2015)	67.16	63.74	65.41	73.98	68.68	71.23
LSTM-CRF (Castro et al., 2018)	72.78	68.03	70.33	78.26	74.39	76.27
BiLSTM-CRF+FlairBBP (Santos et al., 2019a)	74.91	74.37	74.64	83.38	81.17	82.26
ML-BERT BASE-LSTM †	69.68	69.51	69.59	75.59	77.13	76.35
ML-BERT BASE-LSTM-CRF †	74.70	69.74	72.14	80.66	75.06	77.76
ML-BERT BASE	72.97	73.78	73.37	77.35	79.16	78.25
ML-BERT BASE-CRF	74.82	73.49	74.15	80.10	78.78	79.44
PT-BERT BASE-LSTM †	75.00	73.61	74.30	79.88	80.29	80.09
PT-BERT BASE-LSTM-CRF †	78.33	73.23	75.69	84.58	78.72	81.66
PT-BERT BASE	78.36	77.62	77.98	83.22	82.85	83.03
PT-BERT BASE-CRF	78.60	76.89	77.73	83.89	81.50	82.68
PT-BERT LARGE-LSTM †	72.96	72.05	72.50	78.13	78.93	78.53
PT-BERT LARGE-LSTM-CRF †	77.45	72.43	74.86	83.08	77.83	80.37
PT-BERT LARGE	78.45	77.40	77.92	83.45	83.15	83.30
PT-BERT LARGE-CRF	80.08	77.31	78.67	84.82	81.72	83.24

PT-BERT BASE および LARGE with CRF は MiniHAREM で最先端の結果を達成し、従来手法に対して顕著な F1 の向上を示した。
ファインチューニングは一般に本タスクで特徴量ベースのアプローチより優れている。
CRF の組み込みは精度を向上させる傾向がある一方で、時には再現率を低下させることがあり、無効な IOB2 遷移の後処理が F1 の向上に寄与する（約1–2ポイント）。
英語 NER の傾向と比較して、ポルトガル語の BERT モデルは non-CRF ベースラインに対して強力な性能向上を示す（総合シナリオでは LSTM-CRF と比較して約8.3ポイントまで）。
Large なポルトガル語 BERT が全体の結果で最良を示し、特に総エンティティクラスのシナリオで顕著だが、データセットサイズの影響でセレクティブなシナリオでは BASE との差が小さい場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。