Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Architectures for Nested NER through Linearization

Jana Straková, Milan Straka|arXiv (Cornell University)|2019. 08. 19.
Natural Language Processing Techniques인용 수 2
한 줄 요약

이 논문은 중첩된 명명된 엔티티 구조를 다중 레이블 BILOU 체계로 선형화하여 중첩된 명명된 엔티티 인식(NER)을 위한 두 가지 신경망 아키텍처를 제안한다. 첫 번째 모델은 다중 레이블을 사용하는 표준 LSTM-CRF이며, 두 번째 모델은 하드 어텐션을 사용하는 시퀀스 투 시퀀스 작업으로 중첩 NER를 설정한다. 두 모델 모두 BERT, ELMo, Flair와 같은 문맥 기반 임bedding을 활용할 경우, ACE-2004, ACE-2005, GENIA, 체코 CNEC 네 가지 중첩 NER 코퍼스에서 이전 최고 성능을 초월한다.

ABSTRACT

We propose two neural network architectures for nested named entity recognition (NER), a setting in which named entities may overlap and also be labeled with more than one label. We encode the nested labels using a linearized scheme. In our first proposed approach, the nested labels are modeled as multilabels corresponding to the Cartesian product of the nested labels in a standard LSTM-CRF architecture. In the second one, the nested NER is viewed as a sequence-to-sequence problem, in which the input sequence consists of the tokens and output sequence of the labels, using hard attention on the word whose label is being predicted. The proposed methods outperform the nested NER state of the art on four corpora: ACE-2004, ACE-2005, GENIA and Czech CNEC. We also enrich our architectures with the recently published contextual embeddings: ELMo, BERT and Flair, reaching further improvements for the four nested entity corpora. In addition, we report flat NER state-of-the-art results for CoNLL-2002 Dutch and Spanish and for CoNLL-2003 English.

연구 동기 및 목표

  • 표준 NER 모델이 레이블 충돌로 인해 실패하는 상호 겹침 및 중첩된 명명된 엔티티 문제를 해결하기 위해.
  • 명시적인 문법적 또는 하이퍼그래프 구조를 구성하지 않고도 중첩된 엔티티 관계를 암묵적으로 모델링하는 신경망 아키텍처를 개발하기 위해.
  • 복잡한 엔티티 계층을 선형화된 강화된 BILOU 레이블링 체계를 통해 인코딩하여 중첩 NER 코퍼스에서의 성능을 향상시키기 위해.
  • 최근의 문맥 기반 단어 임베딩(BERT, ELMo, Flair)이 중첩 및 평탄한 NER 작업에서 성능 향상에 기여하는지 평가하기 위해.

제안 방법

  • 중첩된 엔티티는 우선순위 규칙에 따라 각 토큰에 다중 레이블을 할당하는 강화된 BILOU 체계를 사용하여 인코딩된다: 먼저 시작되고 더 긴 엔티티가 우선순위를 가진다.
  • 첫 번째 모델은 다중 레이블을 중첩 레이블의 카티esian 곱으로 간주하고, 표준 LSTM-CRF를 사용하여 시퀀스 레이블링을 수행한다.
  • 두 번째 모델은 중첩 NER를 시퀀스 투 시퀀스 작업으로 설정한다: 입력은 토큰 시퀀스이며, 출력은 레이블 시퀀스이며, 단어 예측의 끝을 알리는 특수 <eow> 토큰이 포함된다.
  • 시퀀스 투 시퀀스 디코더에서 하드 어텐션을 사용하여 레이블링 중인 단어에 주의를 기울이며, 각 엔티티 예측을 위한 동적 컨텍스트 모델링이 가능해진다.
  • 두 모델의 입력 특징으로서 문맥 기반 단어 임베딩(ELMo, BERT, Flair)을 사용하여 토큰 표현을 풍부하게 한다.
  • 엄격한 스팬 및 클래스 매칭 기준으로 모델을 훈련 및 평가하며, 테스트 결과는 합쳐진 훈련+검증 세트 기반으로 보고된다.

실험 결과

연구 질문

  • RQ1표준 LSTM-CRF의 단순한 다중 레이블 확장이 명시적인 구조 모델링 없이도 중첩 NER를 효과적으로 처리할 수 있는가?
  • RQ2하드 어텐션을 사용하는 시퀀스 투 시퀀스 접근 방식이 복잡하고 고도로 중첩된 코퍼스에서 더 나은 성능을 내는가?
  • RQ3최근의 문맥 기반 임베딩(BERT, ELMo, Flair)이 중첩 및 평탄한 NER 벤치마크에서 성능 향상에 기여하는가?
  • RQ4강화된 BILOU 인코딩 체계가 신경 시퀀스 레이블링을 위한 중첩 엔티티 구조를 효과적으로 유지하는가?
  • RQ5시퀀스 투 시퀀스 아키텍처가 ACE-2004 및 ACE-2005와 같이 고도로 겹치는 중첩 코퍼스에서 표준 시퀀스 레이블링보다 더 잘 일반화되는가?

주요 결과

  • BERT+Flair 임베딩을 사용할 경우, 시퀀스 투 시퀀스 모델은 ACE-2004에서 F1 스코어 84.40, ACE-2005에서 84.33, GENIA에서 78.31, 체코 CNEC 1.0에서 86.88을 기록한다.
  • BERT+Flair를 사용한 LSTM-CRF 모델은 ACE-2004에서 F1 81.22, CNEC 1.0에서 85.70을 기록하여 이전의 신경망 및 비신경망 방법을 모두 능가한다.
  • ACE-2004 및 ACE-2005에서 시퀀스 투 시퀀스 모델은 모든 이전 방법보다 유의미하게 뛰어난 성능을 보이며, 이는 훈련 문장의 39%가 겹치는 언급을 포함하기 때문이다.
  • 평탄한 NER에서 모델은 최고 성능을 기록한다: CoNLL-2003 영어에서 F1 93.07, 네덜란드어에서 92.69, 스페인어에서 88.81을 기록하며, BERT+Flair를 사용한다.
  • 문맥 기반 임베딩의 추가는 모든 코퍼스에서 성능 향상을 일관되게 유도하며, BERT+Flair가 가장 높은 성과를 기록한다.
  • 강화된 BILOU 인코딩은 중첩된 구조의 효과적인 선형화를 가능하게 하여, 표준 신경망 아키텍처가 복잡한 계층적 관계를 암묵적으로 학습할 수 있도록 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.