QUICK REVIEW

[논문 리뷰] Revisiting Relation Extraction in the era of Large Language Models

Somin Wadhwa, Silvio Amir|arXiv (Cornell University)|2023. 05. 08.

Topic Modeling인용 수 12

한 줄 요약

본 논문은 엔드-투-엔드 관계 추출(RE)을 생성 방식으로 평가하기 위해 GPT-3와 Flan-T5를 비교하고, GPT-3의 적은 샷 프롬프트가 SOTA에 근접함을 보이며, GPT-3가 생성한 연쇄사고(CoT) 설명을 이용해 미세조정 시 Flan-T5가 SOTA에 도달함을 보인다. 또한 생성적 RE의 평가 과제도 다룬다.

ABSTRACT

Relation extraction (RE) is the core NLP task of inferring semantic relationships between entities from text. Standard supervised RE techniques entail training modules to tag tokens comprising entity spans and then predict the relationship between them. Recent work has instead treated the problem as a \emph{sequence-to-sequence} task, linearizing relations between entities as target strings to be generated conditioned on the input. Here we push the limits of this approach, using larger language models (GPT-3 and Flan-T5 large) than considered in prior work and evaluating their performance on standard RE tasks under varying levels of supervision. We address issues inherent to evaluating generative approaches to RE by doing human evaluations, in lieu of relying on exact matching. Under this refined evaluation, we find that: (1) Few-shot prompting with GPT-3 achieves near SOTA performance, i.e., roughly equivalent to existing fully supervised models; (2) Flan-T5 is not as capable in the few-shot setting, but supervising and fine-tuning it with Chain-of-Thought (CoT) style explanations (generated via GPT-3) yields SOTA results. We release this model as a new baseline for RE tasks.

연구 동기 및 목표

생성을 통한 엔드-투-엔드 관계 추출에 대한 매우 큰 언어 모델(LLM)의 역량 평가.
GPT-3의 few-shot 프롬프트를 평가하고 표준 RE 데이터셋에서 감독 기반 baselines와 비교.
생성적 RE의 평가 문제를 조사하고 엄밀한 일치(strict-match) 편향을 보정하기 위한 인간 중심 평가를 제안.
CoT(Chain-of-Thought) 설명으로 Flan-T5를 미세조정하는 학습 전략을 제안하여 SOTA에 도달.
GPT-3 생성-CoT 설명으로 학습된 Flan-T5를 사용한 RE에 대해 실용적이고 오픈 모델 기반의 baseline을 제시.

제안 방법

맥락 C와 입력 x를 주어진 조건으로 관계 삼항을 선형화하여 출력하는 조건부 텍스트 생성으로 RE를 모델링.
주문형 프롬프트를 신중하게 설계하여 ADE, CoNLL04, NYT 데이터셋에서 GPT-3(text-davinci-002)와 함께 인-context 학습을 사용.
엄밀한 문자열 일치의 평가 취약성으로 인해 생성된 출력물을 실제 타깃과 비교하기 위해 인간 주석을 수집.
표준 RE 감독학습에서 Flan-T5 Large를 미세조정하고, 성능 향상을 위해 GPT-3가 생성한 CoT 설명으로도 추가 미세조정.
Flan-T5 학습을 감독하기 위해 GPT-3로 CoT 설명을 생성하고 표준 감독과 CoT 보강 감독을 비교.
마이크로-F1 점수와 타깃 스키마에 대한 출력의 적합성에 대한 질적 분석을 사용하여 결과를 보고.

Figure 2: Examples of misclassified FPs and FNs from GPT-3 (generated under few-shot in-context prompting scheme) under traditional evaluation of generative output. In each instance, the entity-type of subject and object was correctly identified.

실험 결과

연구 질문

RQ1GPT-3의 few-shot 프롬프트로 표준 데이터셋에서 거의 최첨단 RE 성능을 달성할 수 있는가?
RQ2Flan-T5가 few-shot 설정에서 감독된 RE 모델에 맞서거나 능가하며, CoT 설명이 성능을 높일 수 있는가?
RQ3비정확한 출력 형식이 허용되는 생성 모델의 RE 출력을 어떻게 평가해야 하며, 엄밀한 매칭으로부터 어떤 편향이 생기는가?
RQ4GPT-3가 생성한 CoT 설명으로 Flan-T5를 학습시키면 여러 데이터셋에서 견고하고 최첨단의 RE 성능을 얻을 수 있는가?
RQ5CoT 정보를 활용한 감독으로 더 큰 모델에 버금가거나 능가하는 더 작은 오픈 소스 RE baseline을 구축하는 것이 가능할까?

주요 결과

적은 샷의 GPT-3가 거의 SOTA 수준에 근접한 성능을 달성하며, 수십 개의 예시만으로도 최고 수준의 전적 모델에 필적한다.
GPT-3 CoT 설명은 few-shot 성능을 향상시키고 비일치 출력들을 줄인다.
few-shot 설정에서 Flan-T5(Large)는 GPT-3에 비해 성능이 떨어지나, Flan-T5와 GPT-3 생성 CoT 설명을 합치면 SOTA를 달성한다.
CoT 설명으로 Flan-T5를 미세조정하면 ADE, CoNLL, NYT 데이터셋에서 약 5–10 micro-F1 포인트의 큰 이득을 얻어 이전의 완전 감독 생성 방법을 앞선다.
Flan-T5에 CoT 생성 감독을 사용하는 것은 추론 시 GPT-3 없이도 실용적이고 더 빠르게 훈련 가능한 SOTA RE 경로를 제공한다.
본 연구는 생성적 RE의 평가 과제를 강조하고, 신중한 인간 주석이 보고된 이득의 신뢰성을 높임을 보여준다.

Figure 3: We propose fine-tuning Flan-T5 (large) for relation extraction (RE) using standard supervision and Chain-of-Thought (CoT) reasoning elicited from GPT-3 for RE. This yields SOTA performance across all datasets considered, often by substantial margin ( $\sim$ 5 points absolute gain in F1).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.