Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning

Pengda Qin, Weiran Xu|arXiv (Cornell University)|2018. 05. 24.
Topic Modeling참고 문헌 20인용 수 45
한 줄 요약

이 논문은 정책 기반 심층 강화학습 프레임워크를 도입하여 원거리 감독 관계 추출에서 거짓 양성 샘플을 식별하고 재분배하여, 기본 관계 분류기를 바꾸지 않고도 모델 전반의 견고성을 향상시킵니다.

ABSTRACT

Distant supervision has become the standard method for relation extraction. However, even though it is an efficient method, it does not come at no cost---The resulted distantly-supervised training samples are often very noisy. To combat the noise, most of the recent state-of-the-art approaches focus on selecting one-best sentence or calculating soft attention weights over the set of the sentences of one specific entity pair. However, these methods are suboptimal, and the false positive problem is still a key stumbling bottleneck for the performance. We argue that those incorrectly-labeled candidate sentences must be treated with a hard decision, rather than being dealt with soft attention weights. To do this, our paper describes a radical solution---We explore a deep reinforcement learning strategy to generate the false-positive indicator, where we automatically recognize false positives for each relation type without any supervised information. Unlike the removal operation in the previous studies, we redistribute them into the negative examples. The experimental results show that the proposed strategy significantly improves the performance of distant supervision comparing to state-of-the-art systems.

연구 동기 및 목표

  • 원거리 감독 관계 추출의 노이즈를 동기 부여하고 해결한다.
  • 수동 라벨링 없이도 false positives를 식별하는 모델 독립적 RL 기반 방법을 개발한다.
  • 거짓 양성을 재분배하면 기존 신경망 관계 추출기의 성능이 향상됨을 입증한다.
  • NYT-Freebase 데이터셋에서 다수의 베이스라인에 대한 견고성을 보여준다.

제안 방법

  • 현재 문장 및 이전 문장의 상태 정보를 통합하여 원거리 감독을 MDP로 형식화한다.
  • 정책 네트워크(CNN 기반)를 사용하여 각 관계 유형별로 distantly supervised 문장을 제거 여부로 결정한다.
  • 심하게 불균형한 DS 양성/음성 분할을 이용한 감독 유사(Supervised-like) 단계로 정책 네트워크를 사전 학습한다.
  • 에포크마다 고정된 수의 문장을 제거하고 이를 음성 집합으로 재배치하도록 RL 에이전트를 학습시키며, 검증 세트에서의 F1 개선을 보상으로 사용한다.
  • 보상 R_i를 연속 에포크 간 F1 차이의 알파배를 사용하여 정의하고, 학습 안정화를 위해 마지막 다섯 에포크의 평균을 낸다.
  • 제거된 샘플을 음성 세트에 재배치하고 관계 분류기를 재학습시켜 보상 기반 성능을 평가한다.]

실험 결과

연구 질문

  • RQ1수동 라벨링 없이 정책 기반 RL 에이전트가 원거리 감독 데이터에서 거짓 양성 문장을 신뢰성 있게 식별하도록 학습할 수 있는가?
  • RQ2거짓 양성을 음성 집합으로 재배치하면 NYT-Freebase에서 기존 관계 추출 모델의 성능이 향상되는가?
  • RQ3제안된 RL 프레임워크가 모델 독립적이며 서로 다른 신경망 관계 추출기와 호환되는가?
  • RQ4사전 학습과 보상 기반 재학습이 분류기 성능에 미치는 영향을 무엇인가?

주요 결과

  • RL 기반 거짓 양성 지표가 원래 전략이나 사전 학습 전략만 사용할 때보다 관계 분류기의 F1 스코어를 향상시킨다.
  • 정책 네트워크의 사전 학습은 현저한 향상을 가져오고 RL 재학습은 여러 관계 유형에서 추가 이득을 제공한다.
  • RL 강화 학습 기반의 학습은 CNN 기반 및 PCNN 기반 모델에서 PR 곡선 아래 면적(AUC)을 향상시키며 통계적으로 유의한 이득(p-값이 보고됨)을 보인다.
  • 이 방법은 기존 모델과 함께 사용 시 성능 향상을 보여주며, 모델에 독립적인 플러그 앤 플레이 구성요소로서의 적용 가능성을 시사한다.
  • 사례들은 거짓 양성 감지와 제거된 샘플의 관계별 분포를 보여주며 데이터셋의 노이즈 특성과 일치한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.