QUICK REVIEW

[논문 리뷰] TENER: Adapting Transformer Encoder for Named Entity Recognition

Hang Yan, Bocao Deng|arXiv (Cornell University)|2019. 11. 10.

Topic Modeling참고 문헌 39인용 수 245

한 줄 요약

TENER는 NER를 위해 주의 방향-거리 인식을 갖춘 상대적 어텐션을 도입하고, 스케일링되지 않은 어텐션과 Transformer 기반 문자 인코더를 활용하여 사전 학습 없이 여섯 데이터셋에서 최첨단 결과를 달성한다.

ABSTRACT

The Bidirectional long short-term memory networks (BiLSTM) have been widely used as an encoder in models solving the named entity recognition (NER) task. Recently, the Transformer is broadly adopted in various Natural Language Processing (NLP) tasks owing to its parallelism and advantageous performance. Nevertheless, the performance of the Transformer in NER is not as good as it is in other NLP tasks. In this paper, we propose TENER, a NER architecture adopting adapted Transformer Encoder to model the character-level features and word-level features. By incorporating the direction and relative distance aware attention and the un-scaled attention, we prove the Transformer-like encoder is just as effective for NER as other NLP tasks.

연구 동기 및 목표

NER를 위한 Transformer 기반 인코더의 활용 필요성과 vanilla Transformer가 NER에서 왜 저성능인지를 규명한다.
NER를 위한 적응: 방향- 및 거리 인식 상대 위치 인코딩과 NER용 스케일링되지 않은 어텐션을 제안한다.
Robust한 단어 표현을 위해 Transformer 기반의 문자 인코더를 단어 단위 Transformer 인코더와 통합한다.
다양한 영어 및 중국어 NER 데이터셋에서 개조된 Transformer(AdaTrans)를 평가하고 BiLSTM 기반 모델과 비교한다.

제안 방법

상대 위치 인코딩에 기반한 방향- 및 거리 인식 어텐션을 갖춘 개조된 Transformer 인코더를 사용한다.
전통적인 스케일드 닷-프로덕트 어텐션을 스케일링되지 않은 더 예리한 어텐션으로 대체하여 맥락 선택의 희소성을 유도한다.
거리와 방향을 포착하기 위해 상대 위치 인코딩 R_{t-j}와 학습 가능한 바이어스(u, v)를 포함한다.
단어 수준 표현뿐 아니라 문자 수준 표현에도 Transformer 인코더를 적용한다(AdaTrans를 양쪽에 적용).
인코더의 문자 특징을 사전 학습된 단어 임베딩과 연결해 단어 표현을 형성한다.
레이블 의존성을 모델링하고 Viterbi로 디코딩하기 위해 상단에 CRF 층을 사용한다.

실험 결과

연구 질문

RQ1Transformer 인코더를 NER 성능이 BiLSTM 기반 인코더에 필적하거나 그 이상으로 향상시킬 수 있는가?
RQ2방향- 및 거리 인식 상대 위치 인코딩이 vanilla Transformer 대비 다국어에서 NER 성능을 개선하는가?
RQ3스케일링되지 않은 닷 프로덕트 어텐션이 NER 과제에 대해 더 예리하고 효과적인 어텐션을 제공하는가?
RQ4Transformer 기반 문자 인코더가 서브워드 패턴 포착 및 OOV 완화에 유익한가?
RQ5AdaTrans가 영어 및 중국어 데이터셋에서 이전의 최첨단 모델과 비교해 어떤 성능을 보이는가?

주요 결과

모델	CoNLL2003 F1	OntoNotes 5.0 F1
BiLSTM-CRF (comparative)	88.83	-
Transformer	89.57	86.73
TENER (Ours)	91.33	88.43
w/ scale	91.06	87.94
w/ CNN-char	91.45	88.25
TENER with ELMo	92.62	89.78

TENER는 vanilla Transformer에 비해 NER에서 Transformer 성능을 크게 향상시키고 여러 데이터셋에서 BiLSTM 기반 모델을 능가할 수 있다.
방향- 및 거리 인식 상대 위치 인코딩과 스케일링되지 않은 어텐션을 병합하면 큰 이득을 주고, 스케일링된 어텐션은 성능을 저하시킨다.
AdaTrans는 문자 및 단어 수준 인코딩을 모두 개선해 사전 학습 없이도 여섯 데이터셋에서 최첨단 결과를 달성한다. 영어 CoNLL2003 및 OntoNotes 5.0에서 각각 91.33 및 88.43의 F1을 달성(비맥락 임베딩).
scale 없이 CNN-char를 사용하는 경우뿐 아니라 비사전 학습 설정에서 일반적으로 최상의 성능을 보이며, 스케일링된 어텐션은 일관되게 저성능이다.
ELMo 임베딩과 함께 TENER는 CoNLL2003에서 92.62, OntoNotes 5.0에서 89.78로 추가 향상된다.
TENER는 OntoNotes 5.0 개발 세트에서 BiLSTM만큼 빠르게 수렴하고 vanilla Transformer를 수렴 속도에서 능가한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.