[논문 리뷰] GPT-RE: In-context Learning for Relation Extraction using Large Language Models
GPT-RE는 작업 인식 시연 검색과 골드 라벨 유도 추론을 통해 맥락 내 학습을 강화하여 Semeval과 SciERC에서 최첨단(SOTA)을 달성하고 TACRED와 ACE05에서도 경쟁력 있는 결과를 얻는다.
In spite of the potential for ground-breaking achievements offered by large language models (LLMs) (e.g., GPT-3), they still lag significantly behind fully-supervised baselines (e.g., fine-tuned BERT) in relation extraction (RE). This is due to the two major shortcomings of LLMs in RE: (1) low relevance regarding entity and relation in retrieved demonstrations for in-context learning; and (2) the strong inclination to wrongly classify NULL examples into other pre-defined labels. In this paper, we propose GPT-RE to bridge the gap between LLMs and fully-supervised baselines. GPT-RE successfully addresses the aforementioned issues by (1) incorporating task-specific entity representations in demonstration retrieval; and (2) enriching the demonstrations with gold label-induced reasoning logic. We evaluate GPT-RE on four widely-used RE datasets, and observe that GPT-RE achieves improvements over not only existing GPT-3 baselines, but also fully-supervised baselines. Specifically, GPT-RE achieves SOTA performances on the Semeval and SciERC datasets, and competitive performances on the TACRED and ACE05 datasets.
연구 동기 및 목표
- 이전의 기본 GPT-3 방식들을 넘어서 관계 추출(RE)에 대한 맥락 내 학습(ICL)을 개선하려는 동기를 제시한다.
- RE를 위한 ICL의 두 가지 주요 한계: 시연의 관련성 낮음과 입력-라벨 설명의 부재를 다룬다.
- 시연을 풍부하게 만들기 위한 이중 전략 제안: 작업 인식 시연 검색과 골드 라벨 유도 추론.
- 작업 인식 검색 및 추론이 GPT-3 기본선 대비 향상을 가져오고 다수의 데이터셋에서 완전 지도 학습 기반의 기준선과 경쟁 혹은 우수한 성능을 보임을 입증한다.
제안 방법
- RE를 맥락 학습 프레임워크 내에서 언어 생성 태스크로 형식화한다.
- 엔티티와 관계를 강조하는 표현을 사용하여 고품질 시연을 선택하기 위한 작업 인식 검색 도입( 엔티티-프롬프트 문장 임베딩; 미세 조정된 관계 표현).
- 각 레이블 대 샘플을 지원하는 사고의 연쇄(chain-of-thought)와 같은 단서를 제공하기 위해 골드 레이블 유도 추론으로 시연을 풍부하게 한다.
- GPT-3가 y_test를 예측하도록 지시, 작업 인식 시연(x_i, y_i, r_i)과 테스트 입력 x_test를 포함한 프롬프트를 구성한다.
- 선택적으로 저샷 설정에서 특히 시연 품질을 더 개선하기 위해 추론 모듈을 포함시킨다.
실험 결과
연구 질문
- RQ1작업 인식 시연 검색이 문장 수준 또는 무작위 시연과 비교하여 GPT-3의 관계 추출 ICL을 향상시킬 수 있는가?
- RQ2시연에 골드 레이블 유도 추론을 추가하면 RE 태스크에서 입력과 라벨을 일치시키는 GPT-3의 능력이 향상되는가?
- RQ3표준 RE 데이터셋에서 도메인 간 GPT-RE 변형들이 완전 감독 기반의 기준선에 비해 어떻게 수행하는가?
- RQ4무관계(null) 예시가 GPT-3 RE에 미치는 영향과 작업 인식 검색이 무관계 예측을 완화할 수 있는가?
- RQ5저자원 상황에서 GPT-RE와 미세 조정 모델 간 상대 이득은 어떻게 달라지는가?
주요 결과
| Retriever | Semeval Micro-F1 | TACRED Micro-F1 | SciERC Micro-F1 | ACE05 Micro-F1 |
|---|---|---|---|---|
| GPT-Random | 70.04 | 32.49 | 17.92 | 9.04 |
| GPT-Sent (SimCSE) | 79.94 | 33.45 | 20.96 | 6.31 |
| GPT-RE_SimCSE | 81.02 | 37.44 | 26.46 | 8.67 |
| GPT-RE_SimCSE* | 77.49 | 31.58 | - | - |
| + Reasoning (GPT-RE_SimCSE) | 79.88 | 33.18 | - | - |
| GPT-RE_FT (PURE) | 91.90 | 72.14 | 69.00 | 68.73 |
| GPT-RE_FT* (PURE) | 91.11 | 70.38 | - | - |
| + Reasoning (PURE) | 91.82 | 70.97 | - | - |
| Fine-tuned RE Baselines (state-of-the-art) | 91.90 | - | - | - |
- GPT-RE 변형은 무작위 또는 문장 수준 시연에 의존하는 GPT-3 기준선보다 더 나은 성능을 보인다.
- 작업 인식 검색(엔티티 프롬프트 임베딩 및 미세 조정된 관계 표현)은 데이터 세트 전반에 걸쳐 GPT-Sent보다 더 높은 Micro-F1을 산출한다.
- 골드 라벨 유도 추론은 일관되게 성능을 향상시키며, 특히 시연이 적을 때 더 큰 효과가 있다.
- GPT-RE_FT(파인튜닝된 관계 표현 검색기)는 Semeval 및 SciERC에서 최첨단 결과를 달성하고 TACRED 및 ACE05에서 경쟁력 있는 결과를 보인다.
- 추론 강화 시연은 일부 설정에서 GPT-3의 Micro-F1을 약 2% 향상시키고, 저샷 구역에서 더 큰 이득이 있다.
- GPT-RE 방법은 일반 GPT-3 기본선에 비해 무관계 예측 과다를 완화한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.