QUICK REVIEW

[논문 리뷰] Multi-Level Structured Self-Attentions for Distantly Supervised Relation Extraction

Jinhua Du, Jingguang Han|arXiv (Cornell University)|2018. 09. 03.

Topic Modeling참고 문헌 19인용 수 37

한 줄 요약

이 논문은 원거리 감독 관계 추출을 위해 기존 1D 어텐션을 2D 행렬로 확장하는 다중 수준 구조적 자기어텐션 메커니즘(MLSSA)을 제안한다. 단어 수준 및 문장 수준 어텐션을 구조적 2D 행렬로 모델링함으로써, 맥락 표현과 유효한 인스턴스 선택을 향상시켜 NYT 및 DBpedia 데이터셋에서 F1 및 P@N 점수에서 뚜렷한 향상을 이룬다.

ABSTRACT

Attention mechanisms are often used in deep neural networks for distantly supervised relation extraction (DS-RE) to distinguish valid from noisy instances. However, traditional 1-D vector attention models are insufficient for the learning of different contexts in the selection of valid instances to predict the relationship for an entity pair. To alleviate this issue, we propose a novel multi-level structured (2-D matrix) self-attention mechanism for DS-RE in a multi-instance learning (MIL) framework using bidirectional recurrent neural networks. In the proposed method, a structured word-level self-attention mechanism learns a 2-D matrix where each row vector represents a weight distribution for different aspects of an instance regarding two entities. Targeting the MIL issue, the structured sentence-level attention learns a 2-D matrix where each row vector represents a weight distribution on selection of different valid in-stances. Experiments conducted on two publicly available DS-RE datasets show that the proposed framework with a multi-level structured self-attention mechanism significantly outperform state-of-the-art baselines in terms of PR curves, P@N and F1 measures.

연구 동기 및 목표

원거리 감독 관계 추출에서 1D 어텐션 메커니즘의 한계를 해결하여 문장의 다양한 의미적 측면과 다수의 유효 인스턴스를 효과적으로 포착하고자 한다.
구조적 단어 수준 어텐션을 통해 다수의 의미적 측면을 모델링함으로써 엔티티 쌍에 대한 맥락 표현 학습을 향상시키고자 한다.
다중 인스턴스 학습에서 다양한 구조적 어텐션 분포를 학습함으로써 유효한 인스턴스 선택을 향상시키고자 한다.
원거리 감독에서의 잘못된 레이블링 문제를 해결하기 위해, 노이즈 인스턴스를 억제하고 정보가 풍부한 인스턴스를 강조하기 위해 구조적 어텐션을 활용하고자 한다.
2D 구조적 어텐션가 기존 표준 1D 어텐션 및 최신 기술 수준 모델보다 공개된 DS-RE 벤치마크에서 뛰어난 성능을 보임을 입증하고자 한다.

제안 방법

각 행이 특정 엔티티 쌍에 대해 문장의 단어들에 대해 별개의 어텐션 분포를 학습하는 2D 행렬 기반의 단어 수준 자기어텐션 메커니즘을 제안하며, 이는 주어진 엔티티 쌍에 대해 문장의 다수의 의미적 측면을 포착한다.
다수의 인스턴스에 걸쳐 다수의 어텐션 벡터를 학습하는 2D 행렬 기반의 문장 수준 자기어텐션 메커니즘을 도입하여, 정보가 풍부한 문장을 구조적으로 선택할 수 있도록 한다.
양방향 LSTM 기반의 다중 인스턴스 학습 프레임워크 내부에 2D 어텐션 메커니즘을 통합하여 장거리 의존성과 맥락 표현을 모델링한다.
L1 정규화를 사용하여 어텐션 행렬을 최적화함으로써, 서로 다른 측면에서 어텐션 집중의 다양성을 촉진하는 직교 고유벡터를 유도한다.
어텐션 벡터의 가중 평균을 사용하여 관계 분류를 위한 구조적이고 의존성 유사 표현을 형성한다.
역전파를 통해 어텐션 가중치를 학습시키며, 교차 엔트로피 손실을 사용해 모델을 엔드 투 엔드로 훈련시킨다.

실험 결과

연구 질문

RQ11D 어텐션과 비교해 볼 때, 2D 구조적 자기어텐션 메커니즘이 관계 추출을 위한 단어 수준 맥락 표현 학습에 효과적인가?
RQ22D 구조적 문장 수준 어텐션 메커니즘은 다중 인스턴스 학습 환경에서 유효한 인스턴스를 더 잘 식별하고 가중치를 부여하는가?
RQ3제안된 다중 수준 구조적 자기어텐션 메커니즘은 원거리 감독 관계 추출 벤치마크에서 기존 최신 기술 수준 모델보다 뚜렷이 뛰어나게 성능을 높이는가?
RQ4제안된 모델의 어텐션 분포는 표준 1D 어텐션과 비교해 볼 때 집중의 다양성과 의미적 커버리지 측면에서 어떻게 다를까?
RQ5구조적 어텐션 메커니즘은 원거리 감독에서 노이즈 인스턴스의 영향을 어느 정도 감소시키는가?

주요 결과

MLSSA-2 모델은 PT 테스트 세트에서 F1 점수 78.1%를 기록하여, 기준 모델 BiGRU+2ATT의 75.3%를 뛰어넘었다.
NYT 데이터셋에서 MLSSA-2는 P@N 78.1%를 기록하여, 최고의 기준 모델(PCNN+ATT)보다 3.9%포인트 높았다.
모델은 어텐션 집중의 다양성이 향상되었으며, 1D 어텐션과 달리 다수의 어텐션 벡터가 서로 다른 단어와 의미적 측면에 집중하는 것으로 나타났다.
시각화 결과, MLSSA-2는 'a founder of'와 'co-founder'와 같은 의미적으로 동치인 구문에 높은 어텐션을 부여한 반면, BiGRU+2ATT는 이를 인식하지 못했다.
구조적 2D 어텐션 메커니즘은 유사한 의미를 가진 문장들 사이에서 어텐션 분포가 더 균형 있게 분포되어 있어, 어휘 변형에 대한 강건성을 향상시켰다.
MLSSA-2는 NYT 및 DBpedia 포르투갈어 데이터셋에서 PR 곡선, P@N, F1 등 여러 지표에서 최신 기술 수준의 성능을 달성했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.