[논문 리뷰] A Unified MRC Framework for Named Entity Recognition
논문은 flat 및 nested NER을 기계 독해(MRC)로 재프레이밍하고 엔티티 유형별 자연어 질의를 사용해 spans를 추출하며, 중첩 및 평면 NER 데이터 세트 모두에서 최첨단 결과를 달성한다.
The task of named entity recognition (NER) is normally divided into nested NER and flat NER depending on whether named entities are nested or not. Models are usually separately developed for the two tasks, since sequence labeling models, the most widely used backbone for flat NER, are only able to assign a single label to a particular token, which is unsuitable for nested NER where a token may be assigned several labels. In this paper, we propose a unified framework that is capable of handling both flat and nested NER tasks. Instead of treating the task of NER as a sequence labeling problem, we propose to formulate it as a machine reading comprehension (MRC) task. For example, extracting entities with the extsc{per} label is formalized as extracting answer spans to the question "{\it which person is mentioned in the text?}". This formulation naturally tackles the entity overlapping issue in nested NER: the extraction of two overlapping entities for different categories requires answering two independent questions. Additionally, since the query encodes informative prior knowledge, this strategy facilitates the process of entity extraction, leading to better performances for not only nested NER, but flat NER. We conduct experiments on both {\em nested} and {\em flat} NER datasets. Experimental results demonstrate the effectiveness of the proposed formulation. We are able to achieve vast amount of performance boost over current SOTA models on nested NER datasets, i.e., +1.28, +2.55, +5.44, +6.37, respectively on ACE04, ACE05, GENIA and KBP17, along with SOTA results on flat NER datasets, i.e.,+0.24, +1.95, +0.21, +1.49 respectively on English CoNLL 2003, English OntoNotes 5.0, Chinese MSRA, Chinese OntoNotes 4.0.
연구 동기 및 목표
- 하나의 프레임워크에서 중첩(겹침) 및 평면 NER를 해결한다.
- 질의를 통해 엔티티 범주에 대한 사전 지식을 주입하기 위해 기계 독해를 활용한다.
- 엔드투엔드 학습 가능한 모델을 사용하여 중첩 및 평면 NER 데이터 세트의 추출 정확도를 향상시킨다.
- 다양한 벤치마크에서 SOTA 모델 대비 강력한 실험적 이득을 시연한다.
- NER 성능에 대한 질의 구성 및 데이터 효율성의 영향을 분석한다.
제안 방법
- NER를 SQuAD 스타일의 MRC 태스크로 형식화하여 각 엔티티 타입 y에 자연어 질의 q_y를 할당하고 컨텍스트 X에서 답으로 스팬을 추출한다.
- 질의와 컨텍스트를 결합한 것을 인코딩하기 위해 백본으로 BERT를 사용하고, 스팬 추출을 위한 토큰 표현을 생성한다.
- 두 개의 이진 분류기로 시작/종점 스팬 선택 방식을 채택하여 가능한 시작점과 종료점을 예측하고, 질의당 다중 스팬을 가능하게 한다.
- 예측된 시작점과 종료점을 유효한 엔티티 스팬으로 쌍으로 맞추기 위해 추가적인 시작-종 End 매칭 분류기를 학습시키고, 결합 손실을 최소화한다.
- 사전 학습된 BERT 표현으로 L_start, L_end, 및 L_span을 공동으로 학습시켜 엔드투엔드 최적화를 가능하게 한다.
- 주석 지침에서 질의를 생성하고(대안을 탐색) 엔티티 범주에 대한 사전 지식을 인코딩한다.
실험 결과
연구 질문
- RQ1NER를 통합된 MRC 문제로 프레이밍하면 별도 모델 없이도 평면 및 중첩 NER을 처리할 수 있는가?
- RQ2사전 지식을 가진 자연어 질의를 도입하면 추출이 개선되며, 특히 겹치는 엔티티의 경우 어떤가?
- RQ3질의 구성 전략이 NER 성능과 데이터 효율성에 미치는 영향은 무엇인가?
- RQ4제로샷 설정에서 보지 못한 레이블 세트로의 전이성은 BERT-MRC 접근법에서 얼마나 잘 작동하는가?
- RQ5MRC 형식화의 기여도가 사전 학습보다 성능 향상에 어떤 영향을 미치는가?
주요 결과
- BERT-MRC는 ACE04, ACE05, GENIA, 및 KBP17의 중첩 NER 데이터 세트에서 최첨단 또는 근접 SOTA 성능을 달성하고, 기존 모델에 비해 주목할 만한 F1 향상을 보인다.
- 중첩 NER에서 BERT-MRC는 ACE04 85.98, ACE05 86.88, GENIA 83.75, KBP17 80.97의 F1 점수를 달성하여 이전 SOTA보다 각각 +1.28, +2.55, +5.44, +6.37 만큼 상회한다.
- 평면 NER의 경우, BERT-MRC는 강력한 베이스라인 대비 영어 CoNLL-2003은 +0.24 F1, 영어 OntoNotes 5.0은 +1.95 F1, 중국어 MSRA는 +0.21 F1, 중국어 OntoNotes 4.0은 +1.49 F1 향상시켰다.
- 제로샷 실험에서 BERT-MRC는 보지 못한 레이블에 태깅 기반 베이스라인보다 일반화할 수 있지만, 보이는 레이블 태깅보다 절대 성능은 낮다.
- 질의 구성은 성능에 영향을 미치며, 주석 지침 노트가 가장 높은 F1을 제공하고, 동의어 및 키워드 기반 변형도 간단한 템플릿보다 향상을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.