Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Lexical Features for Improved Neural Network Named-Entity Recognition

Abbas Ghaddar, Philippe Langlais|arXiv (Cornell University)|2018. 06. 09.
Topic Modeling인용 수 46
한 줄 요약

본 논문은 Wikipedia에서 WiFiNE를 통해 offline으로 학습된 LS(Lexical Similarity) 벡터를 소개하며, 렉컬 특성이 Bi-LSTM-CRF NER 성능을 현저히 향상시킬 수 있음을 보여주고 OntoNotes 5.0에서 최첨값에 도달하고 CoNLL-2003에서 경쟁력 있는 결과를 얻는다.

ABSTRACT

Neural network approaches to Named-Entity Recognition reduce the need for carefully hand-crafted features. While some features do remain in state-of-the-art systems, lexical features have been mostly discarded, with the exception of gazetteers. In this work, we show that this is unfair: lexical features are actually quite useful. We propose to embed words and entity types into a low-dimensional vector space we train from annotated data produced by distant supervision thanks to Wikipedia. From this, we compute - offline - a feature vector representing each word. When used with a vanilla recurrent neural network model, this representation yields substantial improvements. We establish a new state-of-the-art F1 score of 87.95 on ONTONOTES 5.0, while matching state-of-the-art performance with a F1 score of 91.73 on the over-studied CONLL-2003 dataset.

연구 동기 및 목표

  • 전통적인 gazetteers를 넘어선 렉셜 정보 활용의 필요성을 신경망 NER 시스템에서 동기 부여한다.
  • Wikipedia 주석(WiFiNE)에서 학습된 단어 및 120개의 엔티티 타입을 결합 공간에 임베딩하여 단어당 120차원의 Lexical Similarity(LS) 특성 벡터를 오프라인으로 학습한다.
  • LS 특성을 Bi-LSTM-CRF NER 모델에 통합하고 표준 벤치마크(CoNLL-2003 및 OntoNotes 5.0)에서 평가한다.
  • LS 특성의 강건성 및 사전 학습된 단어 임베딩 및 문자/대소문자 특징과의 보완적 가치를 평가한다.

제안 방법

  • WiFiNE 주석이 달린 Wikipedia 데이터(120 엔티티 타입)를 이용해 단어/엔티티 타입 결합 공간을 생성한다.
  • 각 단어에 대해 120차원 LS 벡터를 산출하며, 각 차원은 단어 임베딩과 엔티티 타입 임베딩 간의 코사인 유사도이다.
  • 모델에 사용하기 전에 MinMax 정규화로 LS 벡터를 [-1,1] 범위로 스케일링한다.
  • LS 특성을 표준 특징들(단어 임베딩, 문자 수준 인코딩, 대소문자 특징)과 함께 Bi-LSTM-CRF NER 모델에 통합한다.
  • SGD(모멘텀 0.9)로 단어 및 문자 구성요소를 학습시키고 드롭아웃을 적용하며 개발 데이터에서 조기 중단을 사용한다.

실험 결과

연구 질문

  • RQ1오프라인으로 학습된 LS 렉셜 표현이 NER에서 표준 임베딩에 보완적인 정보를 제공하는가?
  • RQ2LS 성능은 전통적인 gazetteer 특징 및 Bi-LSTM-CRF NER 모델의 맥락 인식 임베딩과 비교하여 어떠한가?
  • RQ3CoNLL-2003 및 OntoNotes 5.0 전반에서 LS 특징이 성능에 미치는 영향은 무엇이며, 특히 낮은 빈도의 단어에 대해 어떠한가?
  • RQ4Wikipedia 유래 데이터에서 단어에 대해 빈번하지 않거나 소음이 있는 주석이 있을 때 LS 특징은 견고한가?

주요 결과

  • LS 벡터를 일반적인 Bi-LSTM-CRF에 추가했을 때 NER 성능이 상당히 향상된다.
  • OntoNotes 5.0에서 제안 시스템은 새로운 최첨값 F1 87.95를 달성한다.
  • CoNLL-2003에서 시스템은 F1 91.73으로 최첨값과 일치한다.
  • LS 표현은 이진 gazetteer 특징보다 우수하고 표준 임베딩에 보완적인 정보를 제공한다.
  • 아블레이션 결과 LS가 Sskip 임베딩과 경쟁적이며 보완적임을 보여주며, LS+Sskip의 결합이 최상의 결과를 낳는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.