QUICK REVIEW

[논문 리뷰] Enriching Pre-trained Language Model with Entity Information for Relation Classification

Shanchan Wu, Yifan He|arXiv (Cornell University)|2019. 05. 20.

Topic Modeling참고 문헌 16인용 수 30

한 줄 요약

이 논문은 목표 엔티티 주위에 특수 토큰을 삽입하고 문장 표현과 함께 그들의 문맥적 임베딩을 통합함으로써 BERT를 개선한 관계 분류 모델인 R-BERT를 제안한다. 이 방법은 SemEval-2010 Task 8 데이터셋에서 기존 최고 성능을 상회하는 89.25의 매크로 F1 스코어를 달성하여 문장 수준의 의미와 엔티티 특화 정보를 더 잘 포착함으로써 유의하게 뛰어난 성능을 발휘한다.

ABSTRACT

Relation classification is an important NLP task to extract relations between entities. The state-of-the-art methods for relation classification are primarily based on Convolutional or Recurrent Neural Networks. Recently, the pre-trained BERT model achieves very successful results in many NLP classification / sequence labeling tasks. Relation classification differs from those tasks in that it relies on information of both the sentence and the two target entities. In this paper, we propose a model that both leverages the pre-trained BERT language model and incorporates information from the target entities to tackle the relation classification task. We locate the target entities and transfer the information through the pre-trained architecture and incorporate the corresponding encoding of the two entities. We achieve significant improvement over the state-of-the-art method on the SemEval-2010 task 8 relational dataset.

연구 동기 및 목표

사전 훈련된 언어 모델인 BERT와 같은 모델에 엔티티 수준의 정보를 통합하여 관계 분류 성능을 향상시키는 것.
표준 BERT가 문장 맥락과 특정 엔티티 간 관계를 동시에 포착하는 데에 한계가 있음을 해결하는 것.
사전 훈련된 표현을 활용하면서도 목표 엔티티의 위치와 특징을 명시적으로 인코딩하는 방법을 개발하는 것.
SemEval-2010 Task 8 관계 분류 벤치마크에서 최고 성능을 달성하는 것.

제안 방법

입력 시퀀스의 두 목표 엔티티 앞뒤에 특수 토큰 ‘$’와 ‘#’을 삽입하여 BERT가 엔티티 위치를 강조하도록 하는 것.
특수 토큰을 포함한 전체 시퀀스를 BERT 모델로 인코딩하여 문맥화된 표현을 생성하는 것.
두 엔티티에 해당하는 특수 토큰에 대응하는 최종 히든 상태를 추출하고, 이를 [CLS] 토큰 표현과 연결하여 분류에 사용하는 것.
연결된 벡터(문장 + 엔티티 표현)를 다층 피드포워드 네트워크에 입력하여 관계 예측을 수행하는 것.
표준 교차 엔트로피 손실을 사용하여 관계 분류 작업에서 전체 모델을 엔드 투 엔드로 미세조정하는 것.
모든 추가 레이어에 드롭아웃을 적용하고, 기초 학습률이 2e-5인 Adam 최적화를 사용하는 것.

실험 결과

연구 질문

RQ1사전 훈련된 언어 모델에 명시적인 엔티티 정보를 통합하면 관계 분류 성능이 향상되는가?
RQ2엔티티 주위에 특수 토큰을 포함시키는 것이 모델의 목표 엔티티 국소화 및 표현 능력에 어떤 영향을 미치는가?
RQ3문장 수준의 인코딩을 초월하여 엔티티 특화 표현이 최종 분류 성능에 얼마나 기여하는가?
RQ4제안된 방법이 SemEval-2010 Task 8과 같은 표준 벤치마크에서 기존 최고 성능 모델을 초월하는가?

주요 결과

R-BERT는 SemEval-2010 Task 8 데이터셋에서 매크로 F1 스코어 89.25를 기록하여 이전 모든 방법을 능가한다.
제거 실험 결과, 특수 토큰과 엔티티 표현을 모두 제거하면 F1 스코어가 81.09로 떨어지며 이는 이들의 핵심적 역할을 시사한다.
특수 토큰만 제거한 경우(BERT-NO-SEP) F1 스코어가 87.98로 떨어지며, 토큰을 통한 엔티티 국소화가 성능에 필수적임을 보여준다.
엔티티 표현만 제거한 경우(BERT-NO-ENT) F1 스코어가 87.99로 떨어지며, 문장 인코딩을 초월해 엔티티 특화 특징이 추가로 기여함을 확인한다.
이전 최고 성능 모델인 Entity Attention Bi-LSTM(85.2 F1)을 크게 능가하는 성능을 기록한다.
결과적으로 문장 수준 맥락과 명시적인 엔티티 표현을 결합함으로써 관계 분류 성능이 향상됨을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.