QUICK REVIEW

[논문 리뷰] GPT-RE: In-context Learning for Relation Extraction using Large Language Models

Zhen Wan, Fei Cheng|arXiv (Cornell University)|2023. 05. 03.

Topic Modeling인용 수 13

한 줄 요약

GPT-RE는 작업 인식 시연 검색과 골드 라벨 유도 추론을 통해 맥락 내 학습을 강화하여 Semeval과 SciERC에서 최첨단(SOTA)을 달성하고 TACRED와 ACE05에서도 경쟁력 있는 결과를 얻는다.

ABSTRACT

In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.

연구 동기 및 목표

이전의 기본 GPT-3 방식들을 넘어서 관계 추출(RE)에 대한 맥락 내 학습(ICL)을 개선하려는 동기를 제시한다.
RE를 위한 ICL의 두 가지 주요 한계: 시연의 관련성 낮음과 입력-라벨 설명의 부재를 다룬다.
시연을 풍부하게 만들기 위한 이중 전략 제안: 작업 인식 시연 검색과 골드 라벨 유도 추론.
작업 인식 검색 및 추론이 GPT-3 기본선 대비 향상을 가져오고 다수의 데이터셋에서 완전 지도 학습 기반의 기준선과 경쟁 혹은 우수한 성능을 보임을 입증한다.

제안 방법

RE를 맥락 학습 프레임워크 내에서 언어 생성 태스크로 형식화한다.
엔티티와 관계를 강조하는 표현을 사용하여 고품질 시연을 선택하기 위한 작업 인식 검색 도입( 엔티티-프롬프트 문장 임베딩; 미세 조정된 관계 표현).
각 레이블 대 샘플을 지원하는 사고의 연쇄(chain-of-thought)와 같은 단서를 제공하기 위해 골드 레이블 유도 추론으로 시연을 풍부하게 한다.
GPT-3가 y_test를 예측하도록 지시, 작업 인식 시연(x_i, y_i, r_i)과 테스트 입력 x_test를 포함한 프롬프트를 구성한다.
선택적으로 저샷 설정에서 특히 시연 품질을 더 개선하기 위해 추론 모듈을 포함시킨다.

실험 결과

연구 질문

RQ1작업 인식 시연 검색이 문장 수준 또는 무작위 시연과 비교하여 GPT-3의 관계 추출 ICL을 향상시킬 수 있는가?
RQ2시연에 골드 레이블 유도 추론을 추가하면 RE 태스크에서 입력과 라벨을 일치시키는 GPT-3의 능력이 향상되는가?
RQ3표준 RE 데이터셋에서 도메인 간 GPT-RE 변형들이 완전 감독 기반의 기준선에 비해 어떻게 수행하는가?
RQ4무관계(null) 예시가 GPT-3 RE에 미치는 영향과 작업 인식 검색이 무관계 예측을 완화할 수 있는가?
RQ5저자원 상황에서 GPT-RE와 미세 조정 모델 간 상대 이득은 어떻게 달라지는가?

주요 결과

Retriever	Semeval Micro-F1	TACRED Micro-F1	SciERC Micro-F1	ACE05 Micro-F1
GPT-Random	70.04	32.49	17.92	9.04
GPT-Sent (SimCSE)	79.94	33.45	20.96	6.31
GPT-RE_SimCSE	81.02	37.44	26.46	8.67
GPT-RE_SimCSE*	77.49	31.58	-	-
+ Reasoning (GPT-RE_SimCSE)	79.88	33.18	-	-
GPT-RE_FT (PURE)	91.90	72.14	69.00	68.73
GPT-RE_FT* (PURE)	91.11	70.38	-	-
+ Reasoning (PURE)	91.82	70.97	-	-
Fine-tuned RE Baselines (state-of-the-art)	91.90	-	-	-

GPT-RE 변형은 무작위 또는 문장 수준 시연에 의존하는 GPT-3 기준선보다 더 나은 성능을 보인다.
작업 인식 검색(엔티티 프롬프트 임베딩 및 미세 조정된 관계 표현)은 데이터 세트 전반에 걸쳐 GPT-Sent보다 더 높은 Micro-F1을 산출한다.
골드 라벨 유도 추론은 일관되게 성능을 향상시키며, 특히 시연이 적을 때 더 큰 효과가 있다.
GPT-RE_FT(파인튜닝된 관계 표현 검색기)는 Semeval 및 SciERC에서 최첨단 결과를 달성하고 TACRED 및 ACE05에서 경쟁력 있는 결과를 보인다.
추론 강화 시연은 일부 설정에서 GPT-3의 Micro-F1을 약 2% 향상시키고, 저샷 구역에서 더 큰 이득이 있다.
GPT-RE 방법은 일반 GPT-3 기본선에 비해 무관계 예측 과다를 완화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.