Skip to main content
QUICK REVIEW

[논문 리뷰] Fine-tune Bert for DocRED with Two-step Process

Hong Wang, Christfried Focke|arXiv (Cornell University)|2019. 09. 26.
Topic Modeling참고 문헌 18인용 수 116
한 줄 요약

이 논문은 DocRED에서 두 단계 학습 프로세스(관계 존재 여부를 먼저, 그다음 특정 관계)로 BERT를 미세조정하면 baselines보다 문서 단위 관계 추출이 향상된다는 것을 보인다.

ABSTRACT

Modelling relations between multiple entities has attracted increasing attention recently, and a new dataset called DocRED has been collected in order to accelerate the research on the document-level relation extraction. Current baselines for this task uses BiLSTM to encode the whole document and are trained from scratch. We argue that such simple baselines are not strong enough to model to complex interaction between entities. In this paper, we further apply a pre-trained language model (BERT) to provide a stronger baseline for this task. We also find that solving this task in phases can further improve the performance. The first step is to predict whether or not two entities have a relation, the second step is to predict the specific relation.

연구 동기 및 목표

  • 문장 단위 모델을 넘어 더 나은 문서 단위 관계 추출을 고무한다.
  • DocRED를 위한 사전 학습된 언어 모델(BERT)의 활용 이점을 보여준다.
  • DocRED의 라벨 불균형 문제를 해결하기 위한 두 단계 학습 접근법을 제안한다.
  • DocRED 데이터셋의 기존 기준선과 비교하여 접근법의 성능을 평가한다.

제안 방법

  • BERT-base로 문서를 인코딩하여 토큰 임베딩과 엔티티 임베딩을 얻는다.
  • 투영된 BERT 임베딩에 대해 BiLinear 계층을 통해 엔티티 쌍을 표현하고 관계를 예측한다.
  • (1) 균형 샘플링으로 이진 관계 존재(관계 vs. N/A) 학습; (2) 관련 페어만 사용하여 다중 클래스 관계 예측 학습의 두 단계로 학습한다.
  • BiLinear 분류기 전에 BERT 출력들을 128차원 공간으로 투영한다.
  • 학습에 주석이 달린 DocRED 데이터를 사용한다; 1단계에서 3:1의 음수 대 양수 샘플링으로 레이블 1/0; 2단계에서는 관계 인스턴스에만 학습한다.

실험 결과

연구 질문

  • RQ1CNN/LSTM 기반의 기준선과 비교했을 때 BERT가 DocRED의 문서 수준 관계 추출을 향상시키는가?
  • RQ2두 단계 학습 프로세스가 라벨 불균형을 완화하고 문서 수준 RE의 성능을 향상시킬 수 있는가?
  • RQ3엔티티 상호작용 모델링 방법이 DocRED 성능에 얼마나 영향을 미치는가?

주요 결과

  • BERT는 DocRED(dev와 test에서 기준선 대비 약 2%의 F1 개선을 보여준다.
  • 두 단계 학습은 BERT 단독보다 성능을 더 향상시키며(BERT-Two-Step); 두 번째 단계의 정확도는 약 90%에 이른다.
  • BiLSTM 기반 인코더와 로컬 전용 상호작용 모델은 DocRED에서 BERT 기반 모델에 비해 성능이 떨어진다.
  • 병목은 특정 관계를 식별하기보다 존재 여부를 예측하는 1단계에 있다.
  • 문장을 문장별로 인코딩하는 SentModel은 BiLSTM과 비슷한 성능을 보이며, 현재 모델이 문장 간 상호작용을 포착하는 데 어려움을 겪고 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.