QUICK REVIEW

[논문 리뷰] Thinking about GPT-3 In-Context Learning for Biomedical IE? Think Again

Bernal Jiménez Gutiérrez, Nikolas McNeal|arXiv (Cornell University)|2022. 03. 16.

Topic Modeling인용 수 8

한 줄 요약

이 연구는 진정한 소수 샘플 설정에서 생물의학 정보 추출 작업(NER 및 RE)에 대해 GPT-3의 컨텍스트 내 학습과 BERT 크기의 모델을 미세조정하는 것을 체계적으로 비교한다. 프롬프트 엔지니어링, kNN 검색, 校정 기법을 최적화했음에도 불구하고, 더 작은 PLM을 미세조정하는 것이 컨텍스트 내 학습보다 일관되게 성능이 뛰어나며, 데이터가 증가함에 따라 이러한 격차가 더욱 두드러지며, null 케이스 처리 및 자원이 부족한 상황에서의 기본적인 한계를 드러낸다.

ABSTRACT

The strong few-shot in-context learning capability of large pre-trained language models (PLMs) such as GPT-3 is highly appealing for application domains such as biomedicine, which feature high and diverse demands of language technologies but also high data annotation costs. In this paper, we present the first systematic and comprehensive study to compare the few-shot performance of GPT-3 in-context learning with fine-tuning smaller (i.e., BERT-sized) PLMs on two highly representative biomedical information extraction tasks, named entity recognition and relation extraction. We follow the true few-shot setting to avoid overestimating models' few-shot performance by model selection over a large validation set. We also optimize GPT-3's performance with known techniques such as contextual calibration and dynamic in-context example retrieval. However, our results show that GPT-3 still significantly underperforms compared to simply fine-tuning a smaller PLM. In addition, GPT-3 in-context learning also yields smaller gains in accuracy when more training data becomes available. Our in-depth analyses further reveal issues of the in-context learning setting that may be detrimental to information extraction tasks in general. Given the high cost of experimenting with GPT-3, we hope our study provides guidance for biomedical researchers and practitioners towards more promising directions such as fine-tuning small PLMs.

연구 동기 및 목표

실제 소수 샘플 조건에서 GPT-3의 컨텍스트 내 학습이 생물의학 정보 추출(IE) 작업에 실용적인가를 평가하기 위해.
이름 있는 실체 인식(NER) 및 관계 추출(RE)이라는 두 핵심 IE 작업에서 GPT-3의 컨텍스트 내 학습 성능을 BERT 크기의 사전 학습된 언어 모델(PLM)의 미세조정 성능와 비교하기 위해.
최근 개선 기법—예를 들어 프롬프트 설계, kNN 예제 검색, 맥락 기반 校정—이 생물의학 IE에서 GPT-3와 미세조정된 PLM 간의 성능 격차를 줄일 수 있는지 조사하기 위해.
컨텍스트 내 학습의 내재적 한계, 특히 null 클래스(예: 실체가 없는 문장 또는 관계가 없는 쌍) 처리에 어려움을 겪는 점을 분석하기 위해.
비용 효율적이고 데이터 효율적인 NLP 솔루션을 제공하기 위해 생물의학 연구자 및 전문가에게 실용적인 지침을 제시하여, 현재의 생물의학 IE 요구사항에서는 컨텍스트 내 학습보다 미세조정을 우선시할 것을 제안하기 위해.

제안 방법

모델 및 프롬프트 선택을 위해 대규모 검증 세트에 의존하지 않고 100-샷 학습 세트에서 교차 검증을 사용하여 과도한 성능 과대평가를 방지하기 위해 진정한 소수 샘플 설정(Perez et al., 2021)을 채택하였다.
문서 생성 형식으로 작업을 재구성하여 시퀀스-투-시퀀스 생성으로 변환함으로써 NER 및 RE에 대한 체계적인 프롬프트 템플릿을 설계하였으며, 작업 지시, 문장 입력 및 예시 시연을 포함한 구조화된 형식을 사용하였다.
문장 임베딩 기반으로 가장 관련성이 높은 컨텍스트 내 예제를 동적으로 검색하기 위해 k-최근접 이웃(kNN) 모듈을 구현하여 소수 샘플 일반화 성능을 향상시켰다.
NER에서 출력 토큰을 입력 문장에 존재하는 토큰들로 제한하기 위해 로짓 바이어스를 적용하여 환영 생성을 줄이고 토큰 수준 정확도를 향상시켰다.
RE에서 모델의 특정 관계에 대한 편향을 줄이기 위해 맥락 기반 校정(Zhao et al., 2021)을 적용하여 관계 예측의 공정성과 신뢰도를 향상시켰다.
각 최적화 기법(프롬프트 설계, 검색, 校정)의 효과를 검증하기 위해 아블레이션 연구를 수행하여 GPT-3의 컨텍스트 내 학습 성능에 미치는 영향을 분석하였다.

실험 결과

연구 질문

RQ1진정한 소수 샘플 설정에서 GPT-3의 컨텍스트 내 학습이 생물의학 NER 및 RE 작업에서 BERT 크기의 미세조정된 PLM을 초월하는가?
RQ2최근 개선 기법—예를 들어 프롬프트 설계, kNN 검색, 맥락 기반 校정—이 생물의학 IE에서 GPT-3의 컨텍스트 내 학습 성능을 어느 정도 향상시키는가?
RQ3학습 데이터가 증가함에 따라 컨텍스트 내 학습의 성능은 어떻게 변화하며, 이는 데이터 확장성에서 미세조정된 모델과 어떻게 비교되는가?
RQ4컨텍스트 내 학습의 내재적 한계는 무엇인가? 특히 실체가 없는 문장이나 관계가 없는 쌍을 처리하는 데 어려움을 겪는 점이 일반적인 IE 성능에 영향을 미칠 수 있는가?
RQ5자원이 부족한 생물의학 정보 추출 작업에서 컨텍스트 내 학습은 미세조정의 실질적인 대안이 될 수 있는가?

주요 결과

GPT-3의 컨텍스트 내 학습은 조건이 최적화된 상태에서도 모든 평가된 생물의학 NER 및 RE 데이터셋에서 BERT 크기의 미세조정된 PLM을 일관되게 뛰어넘는다.
GPT-3의 컨텍스트 내 학습은 더 많은 학습 데이터가 제공될수록 성능 향상이 크게 나타나지 않지만, 미세조정된 모델은 데이터 확장에 따라 안정적이고 신뢰할 수 있는 성능 향상을 보인다.
컨텍스트 내 학습은 null 클래스 처리에 어려움을 겪는다: NER에서는 실체가 없는 문장에서 잘못된 실체를 예측하는 경우가 자주 발생하고, RE에서는 존재하지 않는 관계를 예측하는 경우가 많아, 제로 샘플 일반화의 근본적인 결함을 드러낸다.
프롬프트 최적화, kNN 검색, 맥락 기반 校정을 적용한 후에도 GPT-3의 컨텍스트 내 학습과 미세조정된 모델 간의 성능 격차는 여전히 크며, 현재 기법들이 이 격차를 메우기에 부족함을 시사한다.
아블레이션 연구를 통해 각 최적화 기법(프롬프트 설계, 검색, 校정)이 GPT-3의 성능을 향상시키지만, 종합적으로는 더 작은 PLM의 강건성과 정확도를 따라잡지 못한다.
이 연구는 생물의학 IE의 자원이 부족한 환경에서, GPT-3의 컨텍스트 내 학습보다 작은 PLM을 미세조정하는 것이 더 실용적이고 신뢰할 수 있으며 비용 효율적인 전략임을 경험적으로 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.