QUICK REVIEW

[논문 리뷰] Portuguese Named Entity Recognition using BERT-CRF

Fábio Souza, Rodrigo Nogueira|arXiv (Cornell University)|2019. 09. 23.

Topic Modeling참고 문헌 26인용 수 180

한 줄 요약

이 논문은 포르투갈어 BERT 모델을 훈련시키고 NER에 BERT-CRF 아키텍처를 적용하여 HAREM I에서 SOTA 성능을 달성했으며, 특히 총 엔터티 클래스 시나리오에서 F1이 크게 증가했다.

ABSTRACT

Recent advances in language representation using neural networks have made it viable to transfer the learned internal states of a trained model to downstream natural language processing tasks, such as named entity recognition (NER) and question answering. It has been shown that the leverage of pre-trained language models improves the overall performance on many tasks and is highly beneficial when labeled data is scarce. In this work, we train Portuguese BERT models and employ a BERT-CRF architecture to the NER task on the Portuguese language, combining the transfer capabilities of BERT with the structured predictions of CRF. We explore feature-based and fine-tuning training strategies for the BERT model. Our fine-tuning approach obtains new state-of-the-art results on the HAREM I dataset, improving the F1-score by 1 point on the selective scenario (5 NE classes) and by 4 points on the total scenario (10 NE classes).

연구 동기 및 목표

포르투갈어 데이터가 부족한 상황에서 사전학습된 언어 모델로 포르투갈 NER 성능 향상을 목표로 한다.
다양한 전이 학습 전략 하에서 포르투갈어 NER에 대한 BERT 기반 표현의 성능을 평가한다.
NER 정확도에 대한 BERT 위의 CRF 계층 및 스팬 기반 컨텍스트 처리의 영향을 평가한다.
벤치마킹을 촉진하기 위해 포르투갈어 NER의 재현 가능한 모델과 코드를 제공한다.

제안 방법

대형 포르투갈어 말뭉치(brWaC)에서 BASE 및 LARGE 포르투갈어 BERT 변형을 WordPiece/SentencePiece 어휘로 학습시킨다.
토큰 수준 분류기와 순차 태깅용 선형 체인 CRF로 BERT-CRF 아키텍처를 구성한다.
특징 기반(frozen BERT with BiLSTM and CRF classifier) vs 미세 조정(jointly train BERT and classifier/CRF)을 조사한다.
길 정도문서는 겹치는 span으로 나누고 보폭(stride)으로 처리; 각 토큰에 대해 가장 맥락이 풍부한 span에서 최종 태그를 선택한다.
ALT 태그 및 다중 클래스 엔티티를 해결하기 위해 IOB2 태깅으로 HAREM 데이터를 전처리한다.
CoNLL 2003 평가를 사용하여 HAREM First/MiniHAREM 데이터셋의 기존 NER 베이스라인과 비교한다.

실험 결과

연구 질문

RQ1포르투갈어 BERT-CRF가 HAREM I(First HAREM 및 MiniHAREM)에서 이전의 최첨단 NER 시스템을 능가하는가?
RQ2포르투갈어 NER에서 BERT의 특징 기반과 미세 조정 전이가 어떻게 비교되는가?
RQ3포르투갈어 NER에 대해 BERT 위에 CRF 계층을 포함하는 것이 어떤 영향을 미치는가?
RQ4최대 맥락을 활용한 스팬 기반 평가가 토큰 수준 예측에 어떤 영향을 미치는가?
RQ5모델 크기(BASE 대 LARGE)가 포르투갈어 NER 성능에 어떤 효과를 가져오는가?

주요 결과

PT-BERT BASE 및 LARGE와 CRF가 MiniHAREM에서 SOTA 결과를 달성했으며, 기존 방법에 비해 F1 점수가 크게 향상되었다.
이 작업에서 일반적으로 미세 조정이 특징 기반 접근법보다 성능이 우수하다.
CRF 통합은 정밀도를 높이는 경향이 있으며 때때로 재현율을 낮출 수 있고, 잘못된 IOB2 전이의 후처리가 F1 점수의 상승에 기여한다(약 1–2점).
영어 NER 추세에 비해 포르투갈어 BERT 모델은 비-CRF 베이스라인 대비 강한 성능 향상을 보이며(총 시나리오에서 LSTM-CRF 대비 최대 약 8.3점),
대형 포르투갈어 BERT가 전반적으로 최상의 결과를 제공하며, 특히 총 엔티티 클래스 시나리오에서 BASE 대비 이득이 작아질 수 있는 데이터셋 규모의 제약이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.