Skip to main content
QUICK REVIEW

[논문 리뷰] End-to-end Named Entity Recognition and Relation Extraction using Pre-trained Language Models

John Giorgi, Xindi Wang|arXiv (Cornell University)|2019. 12. 20.
Topic Modeling참고 문헌 32인용 수 29
한 줄 요약

이 논문은 외부 NLP 도구나 수작업으로 만든 템플릿에 의존하지 않고, 사전에 훈련된 BERT 언어 모델을 활용하는 완전한 엔드 투 엔드 신경망 모델을 제안한다. 이 모델은 세 가지 도메인의 다섯 개 데이터셋에서 최신 기술 수준의 성능을 달성하며, 사전 훈련된 파rameter의 미세조정과 자기주의(self-attention)를 통해 더 빠른 훈련을 실현한다.

ABSTRACT

Named entity recognition (NER) and relation extraction (RE) are two important tasks in information extraction and retrieval (IE \& IR). Recent work has demonstrated that it is beneficial to learn these tasks jointly, which avoids the propagation of error inherent in pipeline-based systems and improves performance. However, state-of-the-art joint models typically rely on external natural language processing (NLP) tools, such as dependency parsers, limiting their usefulness to domains (e.g. news) where those tools perform well. The few neural, end-to-end models that have been proposed are trained almost completely from scratch. In this paper, we propose a neural, end-to-end model for jointly extracting entities and their relations which does not rely on external NLP tools and which integrates a large, pre-trained language model. Because the bulk of our model's parameters are pre-trained and we eschew recurrence for self-attention, our model is fast to train. On 5 datasets across 3 domains, our model matches or exceeds state-of-the-art performance, sometimes by a large margin.

연구 동기 및 목표

  • 파이프라인 기반 NER 및 RE 시스템에서 발생하는 오류 전파와 제한된 정보 공유 문제를 해결한다.
  • 특히 생물의학 및 임상 텍스트와 같은 저자원 도메인에서 의존도가 높은 외부 NLP 도구(예: 의존성 파서)에 의존하는 기존 통합 모델의 한계를 극복한다.
  • 사전에 훈련된 언어 모델을 활용해 첫 훈련에서부터의 학습을 피하고, 훈련 시간을 단축하며 소규모 데이터셋에서 성능을 향상시키는 진정한 엔드 투 엔드 시스템을 개발한다.
  • 재귀 네트워크를 자기주의 메커니즘으로 대체하고 사전에 훈련된 BERT 파rameter를 미세조정함으로써 빠르고 효율적인 훈련을 가능하게 한다.
  • 다양한 도메인에서 최신 기술 수준의 성능를 달성하면서도 모듈성과 확장성을 유지하여 다른 사전에 훈련된 모델이나 도메인에 쉽게 적용할 수 있도록 한다.

제안 방법

  • 주요 인코더로 사전에 훈련된 BERT 모델을 통합하고, 이 모델의 파arameter를 NER 및 RE 작업에 대해 엔드 투 엔드로 미세조정한다.
  • NER에는 시퀀스 투 시퀀스 헤드를, RE에는 관계 분류 헤드를 사용하며, 둘 다 BERT의 문맥 기반 토큰 표현 위에 구축된다.
  • 의존성 파서나 수작업 템플릿 없이 전체 모델을 엔드 투 엔드 방식으로 훈련한다.
  • 재귀 네트워크를 자기주의 메커니즘으로 대체하여 병렬 처리를 가능하게 하고 수렴 속도를 향상시켜, 단일 GPU에서 각 데이터셋에 대해 한 시간 이내에 훈련을 완료한다.
  • BERT의 모듈러 디자인을 활용해 도메인 특화 사전 훈련 모델(예: BioBERT)이나 다른 모델(예: XLNet)으로의 쉽게 적응이 가능하도록 한다.
  • BertViz를 사용해 어텐션 가중치를 시각화하여 모델의 동작을 분석하고, 인접 단어나 문장 경계에 주목하는 등의 어텐션 패턴을 해석한다.

실험 결과

연구 질문

  • RQ1사전에 훈련된 트랜스포머 기반 모델이 외부 NLP 도구나 수작업 템플릿 없이도 최신 기술 수준의 통합 NER 및 RE 성능을 달성할 수 있는가?
  • RQ2BERT와 같은 사전에 훈련된 언어 모델을 미세조정하면, 특히 저자원 생물의학 및 임상 텍스트 데이터셋에서 처음부터 훈련하는 것보다 수렴 속도가 빠르고 성능이 향상되는가?
  • RQ3미세조정된 BERT 모델의 어텐션 패턴이 NER 및 RE 작업에 관련된 문법적 및 의미적 관계를 어떻게 반영하는가?
  • RQ4모델의 성능가 도메인 간으로 일반화되는 정도는 어떠한가? 특히 복잡한 중첩된 엔티티나 문장 간 관계를 처리할 때 어떻게 되는가?
  • RQ5다국어 사전에 훈련된 BERT 가중치를 사용해 모델 아키텍처를 다국어 환경으로 확장할 수 있는가?

주요 결과

  • 이 모델은 세 가지 도메인의 다섯 개 데이터셋에서 최신 기술 수준의 성능를 달성하며, ADE 데이터셋에서 6.53% 향상된 성능를 기록한다. 다만 이 성능 향상은 문장 내 높은 빈도의 애너테이션 패턴으로 인해 과대평가될 수 있다.
  • RE 모듈에서 진짜 엔티티를 사용할 경우 ADE 데이터셋의 성능가 거의 완벽한 점수(98%)에 가까워지며, 이는 데이터셋 내에서 두 엔티티와 한 관계가 빈번히 반복되는 패턴을 모델이 활용하고 있음을 시사한다.
  • 모델은 단일 GPU에서 각 데이터셋에 대해 한 시간 이내에 수렴하며, 자기주의와 사전 훈련된 파arameter 초기화 덕분에 RNN 기반 모델보다 훨씬 빠른 훈련 속도를 확보한다.
  • 어텐션 시각화 결과, 모델이 인접한 단어, 자기주의, 문장 경계에 주목하는 등의 핵심 어텐션 패턴을 유지하고 있음을 확인하여, 미세조정 후에도 문법적 및 구조적 신호가 유지됨을 확인할 수 있다.
  • 제거 실험(ablation studies) 결과, 특히 사전에 훈련된 BERT 인코더와 엔드 투 엔드 훈련 설정이 최적의 성능를 달성하는 데 핵심 요소임을 입증한다.
  • 모델의 모듈러 디자인 덕분에 도메인 특화 사전 훈련 모델(예: BioBERT)이나 다른 아키텍처(예: XLNet)로의 쉽게 적응이 가능하여 일반화 능력과 재사용성이 향상된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.