QUICK REVIEW

[논문 리뷰] Downstream Model Design of Pre-trained Language Model for Relation Extraction Task

Cheng Li, Ye Tian|arXiv (Cornell University)|2020. 04. 08.

Topic Modeling참고 문헌 31인용 수 32

한 줄 요약

이 논문은 관계 추출을 위한 PLM 기반 다운스트림 모델을 설계하였고, 별도의 head/tail 임베딩, 비대칭 커널 내적을 이용한 관계 성향 점수 산출, 겹치거나 다중 관계를 처리하기 위한 Sigmoid 기반 다중 라벨 손실을 도입한다.

ABSTRACT

Supervised relation extraction methods based on deep neural network play an important role in the recent information extraction field. However, at present, their performance still fails to reach a good level due to the existence of complicated relations. On the other hand, recently proposed pre-trained language models (PLMs) have achieved great success in multiple tasks of natural language processing through fine-tuning when combined with the model of downstream tasks. However, original standard tasks of PLM do not include the relation extraction task yet. We believe that PLMs can also be used to solve the relation extraction problem, but it is necessary to establish a specially designed downstream task model or even loss function for dealing with complicated relations. In this paper, a new network architecture with a special loss function is designed to serve as a downstream model of PLMs for supervised relation extraction. Experiments have shown that our method significantly exceeded the current optimal baseline models across multiple public datasets of relation extraction.

연구 동기 및 목표

PLMs를 사용할 때 기존 관계 추출 방법의 한계에 대해 동기를 부여하고 해결한다.
관계 추출을 위한 PLMs 활용 다운스트림 아키텍처를 제안하고, 특화된 표현과 손실을 사용한다.
문장 내 다중 관계 및 중첩 관계 예측 가능성을 높인다.

제안 방법

사전 학습된 언어 모델(BERT)을 사용해 토큰 임베딩을 얻고 CLS-맥락 정보를 더한다.
다른 BERT 계층에서 두 개의 엔티티 중심 임베딩(헤드와 테일)을 추출해 관계 단서를 포착한다.
헤드와 테일 임베딩 간 비대칭 커널 내적을 계산해 각 관계 유형에 대한 관계 성향 점수 행렬을 형성한다.
Sigmoid 활성화를 적용해 토큰-쌍당 확률을 얻고 엔티티-마스크로 엔티티-쌍을 집계해 관계 확률을 산출한다.
마스킹된 엔티티-쌍마다 이진 교차 엔트로피 손실을 적용하고, 관계 유형에 걸쳐 합산하여 최종 손실을 얻는다.
원한다면 NER 구성요소(Bi-LSTM/CRF)를 통합해 공동 추출 모델을 구성할 수 있지만, 본 연구의 초점은 아니다.

실험 결과

연구 질문

RQ1특별히 설계된 다운스트림 태스크 모델과 손실 함수가 PLMs가 관계 추출에서 복잡한 관계를 처리하도록 할 수 있는가?
RQ2엔티티 표현을 분해하고 비대칭 관계 커널을 사용하면 중첩/다중 관계 데이터의 구분이 개선되는가?
RQ3제안된 PLM 기반 다운스트림 접근법은 표준 데이터셋(SemEval, NYT, WebNLG)에서 현대적 비교 기준 대비 특히 복잡한 관계 시나리오에서 어떤 성능을 보이는가?

주요 결과

제안한 방법은 SemEval, NYT, WebNLG에서 여러 Post-BERT-baseline 대비 Micro-F1 점수에서 최상위 수준을 달성한다.
SemEval에서 모델은 Micro-F1 91.0(All)에 도달하여 최고의 Baseline 89.5를 상회한다.
NYT에서 모델은 Micro-F1 89.8(All)에 도달하여 최고의 Baseline 87.5를 상회한다.
WebNLG에서 모델은 Micro-F1 96.3(All)에 도달하여 최고의 Baseline 88.8를 상회한다.
복잡한 중첩 관계(EPO) 및 다중 관계에 직면해도 모델은 견고함을 유지하며, 대부분의 시나리오에서 Baseline 대비 유의미한 이득을 보인다.
아키텍처는 같은 엔티티 쌍 간의 중첩 관계를 포함해 단일 문장에서 다관계 예측을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.