Skip to main content
QUICK REVIEW

[논문 리뷰] Global Pointer: Novel Efficient Span-based Approach for Named Entity Recognition

Jianlin Su, Murtadha Ahmed|arXiv (Cornell University)|2022. 08. 05.
Topic Modeling인용 수 65
한 줄 요약

Global Pointer (GP) 은 상대 위치에 대한 곱셉적 주의(attention)를 사용하여 스팬 경계와 엔터티 유형을 공동으로 점수화하는 스팬 기반 NER 모델을 도입하며, 파라미터를 줄이는 효율적 변형과 클래스 불균형을 처리하는 범용 손실을 제공합니다. 이는 평면 및 중첩 NER 데이터셋에서 최첨단 혹은 경쟁력 있는 성능을 달성하면서 학습/추론 비용을 감소시킵니다.

ABSTRACT

Named entity recognition (NER) task aims at identifying entities from a piece of text that belong to predefined semantic types such as person, location, organization, etc. The state-of-the-art solutions for flat entities NER commonly suffer from capturing the fine-grained semantic information in underlying texts. The existing span-based approaches overcome this limitation, but the computation time is still a concern. In this work, we propose a novel span-based NER framework, namely Global Pointer (GP), that leverages the relative positions through a multiplicative attention mechanism. The ultimate goal is to enable a global view that considers the beginning and the end positions to predict the entity. To this end, we design two modules to identify the head and the tail of a given entity to enable the inconsistency between the training and inference processes. Moreover, we introduce a novel classification loss function to address the imbalance label problem. In terms of parameters, we introduce a simple but effective approximate method to reduce the training parameters. We extensively evaluate GP on various benchmark datasets. Our extensive experiments demonstrate that GP can outperform the existing solution. Moreover, the experimental results show the efficacy of the introduced loss function compared to softmax and entropy alternatives.

연구 동기 및 목표

  • 경계 정보를 포착하고 중첩 엔터티를 다루는 효과적인 스팬 기반 NER의 필요성을 제시합니다.
  • 상대 위치 정보를 곱셈형(attention) 메커니즘으로 활용하기 위해 Global Pointer를 제안합니다.
  • 특별한 손실 및 효율적인 파라미터 축소 변형으로 학습-추론 불일치와 라벨 불균형을 해결합니다.
  • GP의 다양한 벤치마크 데이터셋에서의 효과성과 효율성을 보여줍니다.

제안 방법

  • 사전 학습된 언어 모델(BERT 등)로부터 토큰 표현을 계산합니다.
  • 시작 인덱스와 종료 인덱스를 사용하여 엔터티 유형별로 두 개의 피드포워드 투사를 통해 스팬 표현을 구성합니다.
  • s_alpha(i,j) = q_{i,alpha}^T k_{j,alpha} 로 스팬을 점수화하고 ROPE 상대 위치 인코딩을 도입합니다.
  • 추출 파라미터를 공유하고 경량 분류 항을 추가하여 파라미터 증가를 억제하는 Efficient Global Pointer를 제시합니다.
  • 클래스 불균형을 다루기 위해 원형 손실(circle loss)에서 영감을 얻은 범용 다중 라벨 손실을 제안하고 임계값 기반의 간소화를 도입합니다.
  • 성능을 유지하면서 파라미터 수를 줄이는 근사적 파라미터 축소 변형을 제공합니다.

실험 결과

연구 질문

  • RQ1Global Pointer가 강력한 기본 방법과 비교하여 플랫(flat) 및 중첩(nested) NER 데이터셋에서 더 우수한 Macro-F1 점수를 달성할 수 있는가?
  • RQ2상대 위치 인코딩(ROPE)을 도입하면 스팬 기반 NER 성능이 향상되는가?
  • RQ3제안된 범용 불균형 손실이 NER에 대해 표준 softmax/entropy 기반 손실보다 더 효과적인가?
  • RQ4Efficient Global Pointer가 정확도를 해치지 않으면서 학습 파라미터를 줄일 수 있는가?
  • RQ5GP가 다양한 데이터셋에서 학습 및 추론 효율성 면에서 얼마나 잘 작동하는가?

주요 결과

방법The People’s dailyCLUENERCMeEECONLL04Genia
Bert-CRF95.4678.7064.3985.4673.02
PFN Yan 등94.0079.2963.6887.4374.31
Global Pointer95.5179.4465.9888.5774.64
  • Global Pointer가 평가된 데이터셋 전반에서 벤치마크 대비 더 높은 Macro-F1을 달성합니다.
  • GP는 CLUENER 및 CMeEE와 같은 도전적인 데이터셋에서 BERT-CRF를 크게 능가합니다.
  • Efficient Global Pointer는 특히 난이도가 높은 데이터셋에서 훨씬 적은 파라미터로도 경쟁력 있는 성능을 유지합니다.
  • ROPE 상대 위치 인코딩과 제안된 불균형 손실이 BCE보다 강력한 이득을 제공한다는 점을 확인하는 제거(ablations)가 있습니다.
  • GP는 대규모 데이터셋에서 BERT-CRF보다 더 빠른 학습 및 추론 속도를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.